تحلیل و رفع خطاهای سرور HP

سرورهای HP، به ویژه سری محبوب ProLiant، به دلیل پایداری و عملکرد بالا، ستون فقرات بسیاری از کسب و کارها و دیتاسنترها هستند. با این حال، حتی بهترین سخت افزارها نیز ممکن است با خطا مواجه شوند. مواجهه با یک پیام خطا در سرور HP میتواند نگران کننده باشد، اما درک صحیح این خطاها، اولین و مهمترین گام برای رفع سریع آنها و جلوگیری از Downtime پرهزینه است.
مراحل تشخیص خطاهای سرور HP
قبل از پرداختن به رفع خطاهای سرور HP، باید با ابزارهای تشخیص خطاهای این سرورها آشنا شویم:
POST – Power On Self Test
این اولین فرایندی است که پس از روشن شدن یک سرور HP اجرا میشود. فرایند POST، تمام قطعات سخت افزاری کلیدی مانند پردازنده سرور (CPU)، حافظه سرور (RAM) و کنترلرها را بررسی میکند و در صورت وجود مشکل، آن را با یک کد خطا گزارش میدهد.
iLO – Integrated Lights-Out
iLO یک پردازنده مدیریت ریموت تعبیه شده در داخل سرورهای شرکت HP است. این ابزار به شما اجازه میدهد حتی زمانی که سرور خاموش است یا سیستم عامل آن بالا نمیآید، وضعیت سخت افزار را بررسی، لاگها را مشاهده و سرور را مدیریت کنید. آشنایی با iLO برای هر مدیر سروری ضروری است.
چراغهای LED سرور
چراغهای LED روی پنل جلویی و قطعات داخلی سرور یک راهنمای بصری سریع برای تشخیص مشکلات سخت افزاری هستند. برای مثال، چراغ نارنجی یا قرمز معمولا نشان دهنده یک خطا است که باید در اسرع وقت بررسی شود.
با خرید سرور HP قدرت و پایداری بی نظیر را در کسب و کار خود تجربه کنید!
رفع خطاهای رایج سرور HP
در ادامه به بررسی رایجترین خطاهای سرور HP میپردازیم و راه حلی عملی برای هرکدام ارائه میدهیم:
خطاهای مربوط به هارد دیسک در سرور
این دسته از خطاها مستقیما با ذخیره سازی دادهها در ارتباط هستند و باید در اولویت بررسی باشند.
خطای 1783 – Slot X Drive Array Controller Failure
این پیام نشان میدهد که کنترلر RAID با یک مشکل جدی مواجه شده است و قادر به کار نیست. خرابی فیزیکی کنترلر، از دست رفتن پیکربندی RAID یا مشکل در اتصال کابلها میتواند باعث این خطا شود.
نحوه رفع خطای 1783 در سرور HP:
- بررسی فیزیکی: سرور را خاموش کرده و از اتصال صحیح کنترلر RAID روی اسلات مادربرد و همچنین اتصال کابلهای متصل به هارد دیسکها اطمینان حاصل کنید.
- استفاده از HP Smart Storage Administrator: با استفاده از ابزار SSA، وضعیت کنترلرها را بررسی نمایید.
- بازیابی پیکربندی: اگر پیکربندی RAID از بین رفته است، سعی کنید آن را از نسخه بکاپ بازیابی کنید. در غیر این صورت باید فایل پیکربندی جدیدی بسازید و آن را جایگزین کنید.
- تعویض کنترلر: اگر کنترلر به طور فیزیکی خراب شده باشد، راهی جز تعویض آن ندارید.
خطای 1720 – S.M.A.R.T. Hard Drive Detects Imminent Failure
یکی از خطاهای مهم سرور HP است. این خطا نشان میدهد که تکنولوژی S.M.A.R.T پیش بینی کرده است که یکی از هارد دیسکهای شما به زودی از کار خواهد افتاد.
نحوه رفع خطای 1720 در سرور HP:
- پشتیبان گیری فوری: اولین و حیاتیترین اقدام، تهیه نسخه پشتیبان کامل از تمام دادههای موجود روی هارد دیسک است.
- شناسایی هارد دیسک معیوب: با استفاده از iLO یا چراغهای LED روی هارد دیسک، درایو معیوب را شناسایی نمایید.
- تعویض هارد دیسک معیوب: پس از شناسایی، هارد دیسک را با یک مدل مشابه و سازگار با سرور HP تعویض کنید. اگر از RAID استفاده میکنید، پس از جایگزینی، فرآیند بازسازی به صورت خودکار آغاز خواهد شد.
خطاهای مربوط به حافظه در سرور
مشکلات حافظه میتوانند باعث ناپایداری سیستم، ری استارتهای ناگهانی یا عدم بوت شدن سرور شوند. در ادامه به بررسی و رفع خطاهای سرور HP میپردازیم:
خطای 207 – Invalid Memory Configuration
این خطای سرور، بدین معناست که ماژولهای رم (DIMM) به درستی نصب نشدهاند یا پیکربندی آنها با قوانین تعریف شده توسط HP مطابقت ندارد. خطای 207 میتواند به دلایل متفاوتی مانند قرار دادن رمها در اسلات اشتباه، ترکیب رمهایی با سرعت یا ظرفیت متفاوت به شکل نادرست اتفاق بیفتد.
نحوه رفع خطای 207 در سرور HP:
- ماژولها را دوباره جا بزنید: سرور را خاموش کرده و تمام ماژولهای رم را با دقت از اسلات خود خارج و دوباره جا بزنید. گاهی اوقات اتصال ضعیف باعث این خطا میشود.
- مطالعه راهنمای سرور: به مستندات فنی مدل سرور HP خود مراجعه کنید. در این مستندات، نقشه دقیق و قوانین مربوط به نحوه صحیح چیدمان رمها در اسلاتها توضیح داده شده است. رمها را بر اساس آن راهنما نصب کنید.
- تست تک به تک رمها: اگر شک دارید یکی از ماژولها خراب است، آنها را به صورت تکی روی سرور تست کنید تا ماژول معیوب را بیابید.
خطاهای مربوط به سیستم خنک کننده و پاور سرور
این خطاها اهمیت بسیاری دارند و در صورت نادید گرفتن به سایر قطعات سرور نیز ضربه خواهند زد، برخی از رایجترین خطاهای مربوط به سیستم خنک کننده و پاور سرور HP عبارتند از:
خطای Fan Solution Not Sufficient
این خطا بدین معناست که سیستم خنک کننده سرورها قادر به خنک کردن قطعات در سطح مطلوب نیستند. دلایل احتمالی این خطا عبارتند از خرابی یک یا چند فن، مسدود شدن مسیر گردش هوا یا دمای بالای محیط دیتاسنتر.
نحوه رفع خطای Fan Solution Not Sufficient در سرور HP:
- بررسی فیزیکی فنها: داخل سرور را بررسی کنید و اگر فنی معیوب است یا مشکل دارد آن را تعویض کنید.
- تمیز کردن سرور: گرد و غبار میتواند جلوی گردش هوا در سرور را بگیرد. سرور خود را خاموش کرده و با استفاده از فشار هوای قوی آن را گردگیری کنید.
- بررسی دمای محیط: مطمئن باشید دمای محیط سرور در سطح مناسب و استانداردی قرار دارد.
خطاهای مربوط به پردازنده سرور
خطاهای مربوط به CPU معمولا در همان ابتدای فرآیند بوت شناسایی میشوند و میتوانند شامل خطاهای محاسباتی پیچیده و عدم شناسایی CPU باشند.
خطای Uncorrectable Machine Check Exception
این نوع خطاها که در برخی مواقع با پیام Processor Failed همراه میشوند نشان دهنده یک مشکل سخت افزاری جدی در پردازنده یا ارتباط آن با مادربرد هستند.
نحوه رفع خطای پردازنده در سرور HP:
- بررسی لاگ IML در iLO: اولین و مهمترین گام برای شما بررسی این لاگ است. IML به شما خواهد گفت که کدام پردازنده در سرورهای دارای چند CPU با خطا مواجه شده و جزئیات دقیقتری از نوع خطا ارائه میدهد.
- به روز رسانی Firmware سرور: بسیاری از مشکلات مربوط به پایداری پردازنده با به روز رسانی فریمور سرور برطرف میشوند. اطمینان حاصل کنید که تمام قطعات دارای جدیدترین و پایدارترین نسخه هستند.
- بررسی فیزیکی و نصب مجدد: سرور را خاموش کرده و از برق بکشید. با رعایت نکات ایمنی هیت سینک پردازنده معیوب را باز کنید. پردازنده را با دقت از سوکت خود خارج کرده و پینهای روی سوکت مادربرد را برای هرگونه خمیدگی یا آسیب بررسی کنید. پردازنده را مجددا با دقت در سوکت قرار داده و از نشستن کامل آن اطمینان حاصل نمایید. در صورت نیاز از خمیر حرارتی جدید استفاده کنید.
- جابجایی پردازندهها: اگر سرور شما دو پردازنده دارد، جای آنها را با یکدیگر عوض کنید. اگر خطا به سوکت دیگر منتقل شد، به این معنی است که خود پردازنده مشکل دارد و باید تعویض شود.
- تعویض پردازنده: اگر مراحل بالا مشکل را حل نکرد و پردازنده به عنوان قطعه معیوب شناسایی شد، تنها راه حل، تعویض آن با یک مدل دقیقا مشابه و سازگار با سرور است.
نتیجه گیری
خطاهای سرور HP، گرچه در ابتدا پیچیده به نظر میرسند، اما با یک رویکرد سیستماتیک و استفاده از ابزارهایی مانند iLO، کاملا قابل مدیریت هستند. کلید اصلی در عملکرد درست سرورها، پیشگیری است. به روز رسانی منظم، مانیتورینگ مداوم سخت افزار و نگهداری سرور در یک محیط مناسب، میتواند احتمال وقوع بسیاری از این خطاها را به شدت کاهش دهد.
سوالات متداول
iLO یک چیپ مدیریت ریموت روی سرورهای HP است که شما امکان میدهد سرور را حتی در صورت خاموش بودن یا بالا نیامدن سیستم عامل، به طور کامل مانیتور کنید.
بله، بسیاری از قطعات سرورهای HP به صورت Hot-Plug یا Hot-Swap طراحی شدهاند. با این حال، همیشه قبل از انجام هر کاری به مستندات سازنده سرور مراجعه نمایید.
اولین و بهترین کار، ورود به کنسول iLO و بررسی لاگها است. این لاگها جزئیات دقیقی در مورد خطا، زمان وقوع و قطعه معیوب به شما ارائه میدهند که روند عیب یابی را تسریع میبخشند.
منابع
- https://community.hpe.com/
- https://www.youtube.com/watch?v=QGWS-edEoLI









