Чи вказує цей SMART самотест на несправний диск?

10

Мені цікаво, чи результати цього SMART самотестування вказують на несправний диск, це єдиний накопичувач, який виходить із "завершеним: помилка читання" в результатах.

# smartctl -l selftest /dev/sde
smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)   LBA_of_first_error
# 1  Extended offline    Completed: read failure       90%      8981         976642822
# 2  Extended offline    Aborted by host               90%      8981         -
# 3  Extended offline    Completed: read failure       90%      8981         976642822
# 4  Extended offline    Interrupted (host reset)      90%      8977         -
# 5  Extended offline    Completed without error       00%       410         -

Привід ще не показує жодних ознак несправності, окрім виходу цього SMART самоперевірки. Це вихід з іншого накопичувача в тій же системі, в якій зараз працює SMART самотест

# smartctl -l selftest /dev/sdc
smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Self-test routine in progress 30%     15859         -
# 2  Extended offline    Completed without error       00%      9431         -
# 3  Extended offline    Completed without error       00%      8368         -


SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       1
  3 Spin_Up_Time            0x0027   176   175   021    Pre-fail  Always       -       4183
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       48
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   100   253   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   088   088   000    Old_age   Always       -       8982
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       46
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       34
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       13
194 Temperature_Celsius     0x0022   111   101   000    Old_age   Always       -       36
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       1
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       1
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       2

hard-drive smart

— Джефф Веллінг
джерело

4

Було б набагато корисніше, якби ви запустили smartctl -a /dev/sdeі опублікували розділ з написом, SMART Attributes Data Structureякий містить необроблені лічильники. Зокрема, найпершим є той, Raw_Read_Error_Rateякий є найкращим індикатором "поганий диск" (і, мабуть, буде! 0 у вашому випадку).

— Chris S

1

Додано. . . . . . . . . .

— Джефф Веллінг

1

Додані вами дані виглядають досить добре. Якщо диск є частиною RAID-масиву, я б не переживав про це. Вам слід створити резервну копію важливих файлів в першу чергу; Зараз прийшов час почати, якщо ви цього не зробите.

— Chris S

4

@ Джеф Веллінг: Не бути педантом щодо цього, але якщо ваша "резервна копія" знаходиться на масиві RAID, це не "резервна копія", це "копія". Особисто, якби я був, я замінив би привід на знак відмови диска. За те, що мало витратити навіть на хороший привід у ці дні, страхування того варте. Крім того, я щойно зазнав дві помилки накопичувача, в тому ж масиві (RAID10), в той же день. З 6, які опинилися в масиві. FWIW.

— Кендалл

1

@Kendall, я думаю, що він означає, що масив використовується для резервного копіювання, а оригінали - деінде. Якщо це так, я б пошкодував, оскільки це малоймовірно, що два накопичувачі вийдуть з ладу (якщо це не нові приводи, дитяча смертність є загальною проблемою, а спалювання - це звичайна практика у великих масивах).

— Chris S

8

Сподіваємось, ви давно замінили привід, але оскільки ніхто ще не відповів безпосередньо на питання ...

Ви провели два тести, в обох з яких не вдалося прочитати один і той же логічний сектор диска, як зазначено Completed: read failureв одному і тому ж LBA в обох тестах. Це дійсно вказує на дефект диска, і ви повинні мати можливість його замінити під гарантію. Спроба зберігати дані в цьому секторі може або не може призвести до того, що привід помітить, що він несправний під час запису та перезаписує сектор, але якщо накопичувач не помічає та не може прочитати дані згодом, ви втратили це.

— Майкл Хемптон
джерело

4

Чи варто вашим даним ризикувати на підозрілому диску?

Якби це я, я замінив би привід і був би вдячний, що SMART врятував мені великий головний біль.

— Шматочки бекону
джерело

Крім того, я, як мінімум, налаштував сценарій cron, щоб запускати розумно раз на тиждень на своїх накопичувачах, а потім дозволити йому надсилати висновки у звіті чи електронному листі вам щотижня, щоб ви могли в більшості випадків ідентифікувати достроково які диски можуть бути на останніх ногах, щоб уникнути необхідності відновлення після відмови та відновлення після резервного копіювання. Простіше, якщо у вас є кілька машин, ви використовуєте такий інструмент моніторингу, як Nagios або Munin.

— Вілшир

5

Це простіше зробити, коли ви знаєте, що розумний висновок вказує на несправний диск, важко сказати, що робить, а не вказує на несправний диск.

— Джефф Веллінг

4

Я хочу додати коментарі до іншої відповіді, але я не можу через відсутність представника, зрозумійте.

Вам не потрібно робити сценарій cron, в пакеті smartmontools є розумний демон, який обробляє саме те, що ви хочете зробити: регулярна перевірка стану SMART. Все, що вам потрібно, це створити конфігурацію та запустити послугу. У пакеті smartmontools також є кілька прикладних скриптів, які розумні можуть викликати, коли щось починає виходити з ладу.

— Sgaduuw
джерело

Я не використовую сценарій cron, я використовую розумний демон. Він виписує нотатки в системному журналі, я помітив деякі рядки, які зазвичай не бачу на жодних інших дисках, і спробував самотест, який, коли я перевірив, не вдався. Я ніколи раніше не бачив подібних невдач, тому я думав, що люди тут можуть. Вихід системи smartd досить розумний, якщо ви не маєте багато досвіду з цим, він точно не говорить вам "Drive X вмирає і його потрібно замінити", хоча було б добре, якби це було :)

— Джефф Веллінг

2

Що я буду робити у вашій ситуації?

Перш за все я з’ясовую, на які файли це впливає. Існує кілька інструкцій, як це зробити http://smartmontools.sourceforge.net/badblockhowto.html#e2_example1 Так. У вашому випадку це важче, тому що у вас є масив. Але це можливо. Крім того, переконайтеся, що цей файл створено в резервному режимі, ніж записуйте нулі у збійний сектор. Дві речі можуть статися. 1. Привід успішно записує нулі в цей сектор. Current_Pending_Sector, Reallocated_Sector_Ct після цього має бути нулями. 2. Диск не вдається записати в цей сектор. Чим він переробляє цей сектор на "запасну" зону.

У будь-якому випадку у вас є фіксований привід. Слід відновити файл із резервної копії (тому що ви перезаписали один з них). Також слід повторно провести розширений самотест, щоб переконатися, що більше помилок не буде.

Залишатися здоровим!

PS Я знаю, що ця публікація якась стара. Але я пограбував. І я думаю, що це гарна ідея дати ще одну хорошу відповідь.

— Олександр Приймак
джерело

1

зручна інформація! Зараз спробую це зробити

— kerridge0

0

Заженуть, ймовірно, на виході. Неможливо прочитати з частини накопичувача, безумовно, є умовою відмови, і, безумовно, це може відбутися без інших типових ознак відмови диска. Цей тип речі не є тимчасовим; без інших ознак це може бути слабка голова, дуже легке вирівнювання або несправна ділянка на тарілці (циліндрі?).

Інша альтернатива - помилка SMART; ви дійсно не хочете працювати з накопичувачем з помилковою прошивкою.

Щоразу, коли ви бачите будь-яку помилку від SMART, це є сильним знаком того, що вам слід отримати новий привід, щоб уникнути втрати даних. Частково він призначений як система раннього попередження.

— Сокіл Момот
джерело

0

Резервне копіювання, як тільки зможете!
Якщо цей диск все ще знаходиться в гарантії, значить
- запустіть контрольну утиліту продавця (зазвичай ви можете отримати завантажувальний компакт-диск)
- якщо ця помилка повертає тоді бінго, відправте її назад і чекайте заміни
- відновити з резервного копіювання
- вирішена проблема - END

Якщо цей привід не має гарантії, то вас прикрутили
- є ще надія ...
- оскільки це насправді помилка читання, але це не означає, що ви не можете писати на неї
- після створення резервної копії ви можете спробувати відновити резервну копію, оскільки вона замінить нечитабельні сектори новими даними, які ви можете фактично прочитати назад (ну, як правило, це працює, у фоновому режимі накопичувач переробляє ці блоки, щоб звільнити сектори більшість часу )
- badblocks інструмент також може бути використаний для цього (у вас вже є резервні копії, правда?)
  - ви насправді не використовуєте це для тестування диска (не має сенсу ніколи не використовувати диски), але писати в ці сектори кілька разів
- ви можете знову запустити смарт-тести і є ймовірність, що ці нечитабельні сектори "виправлять себе"
- Проблема НЕ вирішена, ви лише зробили накопичувач довше, ймовірно, він вийде з ладу швидше, ніж зазвичай, можливо, через рік, але залежно від його використання, але ей-диски дешеві, отримайте новий, якщо ваші дані важливі для вас - END

— cstamas
джерело

1

Сучасні жорсткі диски (як, наприклад, з початку століття) не працюють так, як ви описали в розділі "немає гарантії".

— Chris S

3

Почніть зі статті про поганий сектор Вікіпедії . Жорсткі диски абстрагують адресу логічного сектора та відображають його на сектори, які він вважає хорошими. Деякі утиліти постачальника (іноді SMART, залежно від експозиції накопичувача) можуть звітувати про переобладнані сектори. Погані сектори виявляються при операціях запису нормально. Зазвичай після його написання його можна прочитати ще раз; це початкова операція запису, яка зазвичай не працює на поганих секторах. Після того, як сектор поганий, він назавжди поганий, його не "виправляти".

— Chris S

1

Я думаю, що я не сказав нічого, що суперечить тому, що ви говорите, але я трохи уточнив, щоб зробити його більш "технічно правильним".

— cstamas

2

Не впевнений, чому люди так голосували вашу відповідь. Я думаю, ти на місці. Люди, мабуть, неправильно зрозуміли, що ви виступаєте за те, щоб підтримувати невмілий диск. Але, враховуючи, що ОП є домашнім користувачем, вартість нового диска може викликати занепокоєння навіть за сьогоднішніх цін. Я знаю, що це досить старе питання, але від мене, принаймні, ви отримуєте +1. ;)

— Маркус А.

2

@cstamas: Можна також погодитись, що ваша відповідь не зафіксована - якщо накопичувач переживе повний цикл badblocks -w(3-кратне записування, 3-кратне читання), не створюючи нових поганих секторів, я зберіг його. Інакше він просто надто зламаний, щоб його десь використати.

— mt_