Як інтерпретувати ці дані smartctl (smartmon)


20

У нас є сервер Linux, який вже три роки активно використовується. На ньому ми працюємо на ряді віртуалізованих серверів, деякі з яких не дуже добре поводяться, і протягом значного часу іомісткість сервера була перевищена, що призводило до поганої роботи. У нього є 4 500gb Barracuda sata накопичувачі, підключені до 3com рейдового контролера. 1 диск має ОС, а інші 3 - це налаштування raid-5.

Зараз у нас дискусія щодо стану накопичувачів та того, чи активно вони виходять з ладу.

Ось частина виводу для 1 з 4 дисків. Усі вони мають відносно схожу статистику:

SMART Attributes Редакційний номер структури даних: 10
Спеціальні атрибути SMART з порогами:
Ідентифікатор № ATTRIBUTE_NAME ВАРТІСТЬ ФЛАГУ НАЙКРАЩИЙ ТРИШ ТИП ОНОВЛЕНИЙ WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate 0x000f 118 099 006 Завжди перед відмовою - 169074425
  3 Spin_Up_Time 0x0003 095 092 000 Завжди перед відмовою - 0
  4 Start_Stop_Count 0x0032 100 100 020 Old_age Завжди - 26
  5 Reallocated_Sector_Ct 0x0033 100 100 036 Попередні помилки Завжди - 0
  7 Seek_Error_Rate 0x000f 077 060 030 Завжди перед відмовою - 200009354607
  9 Power_On_Hours 0x0032 069 069 000 Old_age Завжди - 27856
 10 Spin_Retry_Count 0x0013 100 100 097 Попередні помилки Завжди - 1
 12 Power_Cycle_Count 0x0032 100 100 020 Old_age Завжди - 26
184 Невідомо_Разподілити 0x0032 100 100 099 Old_age Завжди - 0
187 Повідомлено_Неправильно 0x0032 100 100 000 Old_age Завжди - 0
188 Невідомо_Розподілити 0x0032 100 100 000 Old_age Завжди - 1
189 High_Fly_Writes 0x003a 100 100 000 Old_age Завжди - 0
190 Повітряний потік_Температура_Кель 0x0022 071 060 045 Старий вік завжди - 29 (Тривалість життя хв / макс 26/37)
194 Температура_Цельсій 0x0022 029 040 000 Старий завжди - 29 (0 21 0 0)
195 Hardware_ECC_Recovered 0x001a 046 033 000 Old_age Завжди - 169074425
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Завжди - 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Завжди - 0

Версія журналу помилок SMART: 1
Не зафіксовано помилок

Моє тлумачення цього полягає в тому, що у нас не було жодних поганих секторів або інших ознак того, що будь-який з приводів активно виходить з ладу.

Однак високі Raw_Read_Error_Rate та Seek_Error_Rate вказуються як свідчення того, що диски вмирають.


1
Тут є хороший опис (занадто довгий час для повторного розміщення, будь ласка, перейдіть за посиланням): lime-technology.com/wiki/Understanding_SMART_Reports Якщо посилання знижується, деякі важливі цитати: "Це показник поточної швидкості помилок операції зчитування фізичного сектору низького рівня. У звичайній роботі ВЖЕ є невелика кількість помилок [...] З приводом НЕ виникає проблем ". та "ВИМОЖАЙТЕ повністю ігнорувати число RAW_VALUE! Тільки Seagates повідомляє про вихідне значення, яке так, як видається, є числом помилок читання в необробленому вигляді, але їх слід повністю ігнорувати."
Конрад Гаєвський

Відповіді:


7

На мій досвід, Seagates має дивні числа для цих двох атрибутів SMART. Під час діагностування Seagate я схильний ігнорувати їх і пильніше придивлятись до інших полів, таких як перерозподілений сектор. Звичайно, коли сумніви замінять накопичувач, але навіть абсолютно нові Seagates матимуть високу кількість цих атрибутів.


58

Для дисків Seagate (а можливо, і для старих з WD) Seek_Error_Rate та Raw_Read_Error_Rate - це 48 бітові числа, де найбільш значущі 16 біт - це кількість помилок, а низькі 32 біти - це ряд операцій.

% python
>>> 200009354607 & 0xFFFFFFFF
2440858991
>>> (200009354607 & 0xFFFF00000000) >> 32
46

Отже, ваш диск здійснив 2440858991 прагнень, з них 46 не вдалося. Мій досвід роботи з накопичувачами Seagate полягає в тому, що вони, як правило, виходять з ладу, коли кількість помилок перевищує 1000. YMMV.


7
Танси для цього, я б хотів, щоб я отримав цю інформацію, коли я спочатку ставив це питання.
огляд

1
Це, дуже корисно. Врятувало мене від паніки.
Халсафар

Чи може хтось надати будь-яке посилання, щоб підтвердити, що це 48 бітові числа при цьому розділенні? Я хочу підтвердити ці цифри
iuridiniz

9

RAW_VALUES "частота помилок пошуку" та "швидкість помилки читання" практично не мають сенсу для будь-кого, окрім підтримки Seagate. Як зазначали інші, нераціональні значення параметрів, таких як "перерозподілений сектор сектору" або записи в журналі помилок накопичувача, швидше свідчать про більш високу ймовірність виходу з ладу.

Але ви можете подивитися інтерпретовані дані у стовпцях "VALUE", "WORST" і "THRESH", які повинні читатися як вимірювальні дані:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH
  7 Seek_Error_Rate         0x000f   077   060   030

Це означає, що рівень помилок у вашому пошуку вважається "77% хорошим" і SMART повідомляє про проблему, коли він досягає "30% хорошого". Колись вона була такою ж низькою, як "60% добра", але з того часу магічно відновилася. Зауважте, що інтерпретовані значення обчислюються внутрішньо логікою SMART диска, і точний розрахунок може бути або не може бути опублікований виробником і, як правило, користувач не може налаштувати.

Особисто я вважаю диск ", що містить записи журналу помилок, як" невдалий "і вимагаю заміни, як тільки вони відбудуться. Але загалом, дані SMART виявились досить слабким показником для прогнозування збоїв, як показали дослідницькі документи, опубліковані Google .


4

Я зрозумів, що ця дискусія трохи стара, але хочу додати свої 2 центи. Я визнав, що розумна інформація є досить хорошим показником попереднього виходу з ладу. Коли ви отримаєте розумний поріг, замініть диск. Ось для чого ці пороги.

Переважна більшість часу ви почнете бачити погані сектори. Це впевнений знак, що привід починає виходити з ладу. SMART рятував мене багато разів. Я використовую програмне забезпечення RAID 1, і це дуже корисно, оскільки ви просто заміните несправний диск і відновите масив.

Також щотижня я проводжу короткий і довгий самотест.

smartctl -t short /dev/sda
smartctl -t long /dev/sda 

Або додайте його /etc/smartd.conf і отримайте його на електронній пошті, якщо є помилки

/dev/sda -s L/../../3/22 -I 194 -m someemail@somedomain
/dev/sdb -s L/../../7/22 -I 194 -m someemail@somedomain

Переконайтесь, що встановіть logwatch та перенаправляєте корінь на електронну адресу та перевіряйте щоденні електронні листи від logwatch. SMARTD зіткнулися прапори з'являться там, але це не допоможе, якщо ніхто не стежить за цим регулярно.


1

Так, ці поля виглядають погано, але я не довіряю (більше) інформації, яку повідомляє smart (мій тестовий апарат має накопичувач, який має бути давно мертвим, якщо ви читаєте дані з smartctrl) Справа в тому, що ви повідомили високий вміст Iowait і накопичувачі 3 роки. Цього повинно вистачити для зміни приводів.


1
З різних причин нам потрібно максимально інвестувати в обладнання. Iowait був пов'язаний із смішним навантаженням, а також з деякими помилками конфігурації, які ми допустили під час налаштування коробки.
огляд

0

Вибачте, що вчинили некромантію на цій посаді, але, за моїм досвідом, поля "Швидкість помилок читання" та "Апаратне відновлення ECC" для накопичувача Seagate цілком буквально пройдуть повсюдно і постійно збільшуватимуться в діапазоні трильйонів, в який момент вони Повернусь назад до нуля, щоб продовжити процес знову. У мене Seagate ST9750420AS, який мав цю проблему з першого дня і все ще чудово працює навіть через досить багато років і 3500+ годин використання.

Я думаю, що ці поля можна сміливо ігнорувати, якщо ви працюєте з ним у своєму випадку. Просто переконайтеся, що два поля повідомляють про однакову кількість та синхронізуються постійно. Якщо їх немає ... ну ... Це насправді може означати проблему.


0

Для автоматизації обчислень цієї відповіді використовуйте онлайн-калькулятор javascript:

https://yksi.ml/

Це скаже вам:

  • Загальна кількість операцій
  • Кількість невдалих операцій

Калькулятор дійсний для Seagate:

  • Шукайте показник помилок
  • Частота помилок читання у сирому режимі
  • Відновлено апаратне забезпечення ECC

Для подальшого читання щодо обчислення нормованих (від 0 до 100 значень) дивіться цю статтю .

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.