تحلیل و رفع خطاهای سرور HP

آخرین به روز رسانی: 22 آبان 1404
3 دقیقه زمان مطالعه
HP-Server-Common-Errors

می‌توانید خلاصه‌ای کوتاه از محتوای مقاله را با استفاده از هوش مصنوعی دریافت نمایید.

فهرست مطالب

سرورهای HP، به ویژه سری محبوب ProLiant، به دلیل پایداری و عملکرد بالا، ستون فقرات بسیاری از کسب و کارها و دیتاسنترها هستند. با این حال، حتی بهترین سخت افزارها نیز ممکن است با خطا مواجه شوند. مواجهه با یک پیام خطا در سرور HP می‌تواند نگران کننده باشد، اما درک صحیح این خطاها، اولین و مهم‌ترین گام برای رفع سریع آن‌ها و جلوگیری از Downtime پرهزینه است.

مراحل تشخیص خطاهای سرور HP

قبل از پرداختن به رفع خطاهای سرور HP، باید با ابزارهای تشخیص خطاهای این سرورها آشنا شویم:

  • POST – Power On Self Test

این اولین فرایندی است که پس از روشن شدن یک سرور HP اجرا می‌‎شود. فرایند POST، تمام قطعات سخت افزاری کلیدی مانند پردازنده سرور (CPU)، حافظه سرور (RAM) و کنترلرها را بررسی می‌کند و در صورت وجود مشکل، آن را با یک کد خطا گزارش می‌دهد.

  • iLO – Integrated Lights-Out

iLO یک پردازنده مدیریت ریموت تعبیه شده در داخل سرورهای شرکت HP است. این ابزار به شما اجازه می‌دهد حتی زمانی که سرور خاموش است یا سیستم عامل آن بالا نمی‌آید، وضعیت سخت افزار را بررسی، لاگ‌ها را مشاهده و سرور را مدیریت کنید. آشنایی با iLO برای هر مدیر سروری ضروری است.

  • چراغ‌های LED سرور

چراغ‌های LED روی پنل جلویی و قطعات داخلی سرور یک راهنمای بصری سریع برای تشخیص مشکلات سخت افزاری هستند. برای مثال، چراغ نارنجی یا قرمز معمولا نشان دهنده یک خطا است که باید در اسرع وقت بررسی شود.

با خرید سرور HP قدرت و پایداری بی نظیر را در کسب و کار خود تجربه کنید!

رفع خطاهای رایج سرور HP

در ادامه به بررسی رایج‌ترین خطاهای سرور HP می‌پردازیم و راه حلی عملی برای هرکدام ارائه می‌‌دهیم:

خطاهای مربوط به هارد دیسک در سرور

این دسته از خطاها مستقیما با ذخیره سازی داده‌ها در ارتباط هستند و باید در اولویت بررسی باشند.

خطای 1783 – Slot X Drive Array Controller Failure

این پیام نشان می‌دهد که کنترلر RAID با یک مشکل جدی مواجه شده است و قادر به کار نیست. خرابی فیزیکی کنترلر، از دست رفتن پیکربندی RAID یا مشکل در اتصال کابل‌ها می‌تواند باعث این خطا شود.

نحوه رفع خطای 1783 در سرور HP:

  1. بررسی فیزیکی: سرور را خاموش کرده و از اتصال صحیح کنترلر RAID روی اسلات مادربرد و همچنین اتصال کابل‌های متصل به هارد دیسک‌ها اطمینان حاصل کنید.
  2. استفاده از HP Smart Storage Administrator: با استفاده از ابزار SSA، وضعیت کنترلرها را بررسی نمایید.
  3. بازیابی پیکربندی: اگر پیکربندی RAID از بین رفته است، سعی کنید آن را از نسخه بکاپ بازیابی کنید. در غیر این صورت باید فایل پیکربندی جدیدی بسازید و آن را جایگزین کنید.
  4. تعویض کنترلر: اگر کنترلر به طور فیزیکی خراب شده باشد، راهی جز تعویض آن ندارید.

خطای 1720 – S.M.A.R.T. Hard Drive Detects Imminent Failure

یکی از خطاهای مهم سرور HP است. این خطا نشان می‌دهد که تکنولوژی S.M.A.R.T پیش بینی کرده است که یکی از هارد دیسک‌های شما به زودی از کار خواهد افتاد.

نحوه رفع خطای 1720 در سرور HP:

  1. پشتیبان گیری فوری: اولین و حیاتی‌ترین اقدام، تهیه نسخه پشتیبان کامل از تمام داده‌های موجود روی هارد دیسک است.
  2. شناسایی هارد دیسک معیوب: با استفاده از iLO یا چراغ‌های LED روی هارد دیسک، درایو معیوب را شناسایی نمایید.
  3. تعویض هارد دیسک معیوب: پس از شناسایی، هارد دیسک را با یک مدل مشابه و سازگار با سرور HP تعویض کنید. اگر از RAID استفاده می‌کنید، پس از جایگزینی، فرآیند بازسازی به صورت خودکار آغاز خواهد شد.

خطاهای مربوط به حافظه در سرور

مشکلات حافظه می‌توانند باعث ناپایداری سیستم، ری استارت‌های ناگهانی یا عدم بوت شدن سرور شوند. در ادامه به بررسی و رفع خطاهای سرور HP می‌پردازیم:

خطای 207 – Invalid Memory Configuration

این خطای سرور، بدین معناست که ماژول‌های رم (DIMM) به درستی نصب نشده‌اند یا پیکربندی آن‌ها با قوانین تعریف شده توسط HP مطابقت ندارد. خطای 207 می‌تواند به دلایل متفاوتی مانند قرار دادن رم‌ها در اسلات اشتباه، ترکیب رم‌هایی با سرعت یا ظرفیت متفاوت به شکل نادرست اتفاق بیفتد. 

نحوه رفع خطای 207 در سرور HP:

  1. ماژول‌ها را دوباره جا بزنید: سرور را خاموش کرده و تمام ماژول‌های رم را با دقت از اسلات خود خارج و دوباره جا بزنید. گاهی اوقات اتصال ضعیف باعث این خطا می‌شود.
  2. مطالعه راهنمای سرور: به مستندات فنی مدل سرور HP خود مراجعه کنید. در این مستندات، نقشه دقیق و قوانین مربوط به نحوه صحیح چیدمان رم‌ها در اسلات‌ها توضیح داده شده است. رم‌ها را بر اساس آن راهنما نصب کنید.
  3. تست تک به تک رم‌ها: اگر شک دارید یکی از ماژول‌ها خراب است، آن‌ها را به صورت تکی روی سرور تست کنید تا ماژول معیوب را بیابید.

خطاهای مربوط به سیستم خنک کننده و پاور سرور

این خطاها اهمیت بسیاری دارند و در صورت نادید گرفتن به سایر قطعات سرور نیز ضربه خواهند زد، برخی از رایج‌ترین خطاهای مربوط به سیستم خنک کننده و پاور سرور HP عبارتند از:

خطای Fan Solution Not Sufficient

این خطا بدین معناست که سیستم خنک کننده سرورها قادر به خنک کردن قطعات در سطح مطلوب نیستند. دلایل احتمالی این خطا عبارتند از خرابی یک یا چند فن، مسدود شدن مسیر گردش هوا یا دمای بالای محیط دیتاسنتر.

 نحوه رفع خطای Fan Solution Not Sufficient در سرور HP:

  1. بررسی فیزیکی فن‌ها: داخل سرور را بررسی کنید و اگر فنی معیوب است یا مشکل دارد آن را تعویض کنید.
  2. تمیز کردن سرور: گرد و غبار می‌تواند جلوی گردش هوا در سرور را بگیرد. سرور خود را خاموش کرده و با استفاده از فشار هوای قوی آن را گردگیری کنید.
  3. بررسی دمای محیط: مطمئن باشید دمای محیط سرور در سطح مناسب و استانداردی قرار دارد.

خطاهای مربوط به پردازنده سرور

خطاهای مربوط به CPU معمولا در همان ابتدای فرآیند بوت شناسایی می‌شوند و می‌توانند شامل خطاهای محاسباتی پیچیده و عدم شناسایی CPU باشند.

خطای Uncorrectable Machine Check Exception

این نوع خطاها که در برخی مواقع با پیام Processor Failed همراه می‌شوند نشان دهنده یک مشکل سخت افزاری جدی در پردازنده یا ارتباط آن با مادربرد هستند.

 نحوه رفع خطای پردازنده در سرور HP:

  1. بررسی لاگ IML در iLO: اولین و مهم‌ترین گام برای شما بررسی این لاگ است. IML به شما خواهد گفت که کدام پردازنده در سرورهای دارای چند CPU با خطا مواجه شده و جزئیات دقیق‌تری از نوع خطا ارائه می‌دهد.
  2. به روز رسانی Firmware سرور: بسیاری از مشکلات مربوط به پایداری پردازنده با به روز رسانی فریمور سرور برطرف می‌شوند. اطمینان حاصل کنید که تمام قطعات دارای جدیدترین و پایدارترین نسخه هستند.
  3. بررسی فیزیکی و نصب مجدد: سرور را خاموش کرده و از برق بکشید. با رعایت نکات ایمنی هیت سینک پردازنده معیوب را باز کنید. پردازنده را با دقت از سوکت خود خارج کرده و پین‌های روی سوکت مادربرد را برای هرگونه خمیدگی یا آسیب بررسی کنید. پردازنده را مجددا با دقت در سوکت قرار داده و از نشستن کامل آن اطمینان حاصل نمایید. در صورت نیاز از خمیر حرارتی جدید استفاده کنید.
  4. جابجایی پردازنده‌ها: اگر سرور شما دو پردازنده دارد، جای آن‌ها را با یکدیگر عوض کنید. اگر خطا به سوکت دیگر منتقل شد، به این معنی است که خود پردازنده مشکل دارد و باید تعویض شود.
  5. تعویض پردازنده: اگر مراحل بالا مشکل را حل نکرد و پردازنده به عنوان قطعه معیوب شناسایی شد، تنها راه حل، تعویض آن با یک مدل دقیقا مشابه و سازگار با سرور است.

نتیجه گیری

خطاهای سرور HP، گرچه در ابتدا پیچیده به نظر می‌رسند، اما با یک رویکرد سیستماتیک و استفاده از ابزارهایی مانند iLO، کاملا قابل مدیریت هستند. کلید اصلی در عملکرد درست سرورها، پیشگیری است. به روز رسانی منظم، مانیتورینگ مداوم سخت افزار و نگهداری سرور در یک محیط مناسب، می‌تواند احتمال وقوع بسیاری از این خطاها را به شدت کاهش دهد. 

سوالات متداول

iLO یک چیپ مدیریت ریموت روی سرورهای HP است که شما امکان می‌دهد سرور را حتی در صورت خاموش بودن یا بالا نیامدن سیستم عامل، به طور کامل مانیتور کنید.

بله، بسیاری از قطعات سرورهای HP به صورت Hot-Plug یا Hot-Swap طراحی شده‌اند. با این حال، همیشه قبل از انجام هر کاری به مستندات سازنده سرور مراجعه نمایید.

اولین و بهترین کار، ورود به کنسول iLO و بررسی لاگ‌ها است. این لاگ‌ها جزئیات دقیقی در مورد خطا، زمان وقوع و قطعه معیوب به شما ارائه می‌دهند که روند عیب یابی را تسریع می‎‌بخشند.

منابع

  • https://community.hpe.com/
  • https://www.youtube.com/watch?v=QGWS-edEoLI

بدون دیدگاه
اشتراک گذاری
اشتراک‌گذاری
با استفاده از روش‌های زیر می‌توانید این صفحه را با دوستان خود به اشتراک بگذارید.