У мене є невеликий сервер Ubuntu, який працює вдома, з 2 жорсткими дисками. На дисках є два програмні рейди (raid1), якими керує mdadm, що, на мою думку, не має значення, але згадувати про нього все одно.
Обидва жорсткі диски - Western Digital, і їх використовували близько 2 років, коли один з них почав робити клацання, і помер. Я подумав, що, можливо, через 2 роки це природно, тож я купив новий і повторно застосував рейдові масиви. Приблизно через місяць другий привід теж помер.
Я не став підозрілим, оскільки обидва накопичувачі були придбані одночасно, не дивно бачити, що вони обоє поруч, тож я придбав ще один.
Поки 2 старі накопичувачі вийшли з ладу і 2 абсолютно нові в системі. Через місяць один з нових приводів помер. Це коли воно почало підозріло. Оскільки ПК був зібраний з деяких дійсно старих частин (думаю AthlonXP), я зрозумів, що, можливо, винуватцем є контролер SATA материнської плати. Звичайно, ви не можете легко перемикати деталі на старому ПК, як це, тому я придбав цілу систему, новий МБ, новий процесор, нову оперативну пам’ять. Взяв назад тільки що не вдався диск, оскільки він був під гарантією, і його замінили.
Отже, це до 2 несправних накопичувачів зі старих та 1 відмовлених накопичувачів від нових. Без проблем, протягом 1 місяця. Після цього помилки знову повзали в / var / log / messages, і mdadm повідомляв про помилки масиву рейду. Я почала виривати волосся. У системі все нове, це третій абсолютно новий жорсткий диск, просто неможливо, щоб усі нові накопичувачі, які я придбав, були несправними.
Давайте подивимось, що все ще є спільним ... кабелі. Гаразд, тривалий знімок, давайте замінимо кабелі SATA. Візьміть назад жорсткий диск, посміхніться хлопцеві за прилавком і скажіть, що мені справді не пощастило. Він замінює жорсткий диск. Я приходжу додому, проходить один місяць, і знову один з жорстких дисків виходить з ладу. Я не жартую.
Дві з абсолютно нових жорстких дисків вийшли з ладу. Можливо, це помилка в ОС. Давайте подивимося, що говорить інструмент тестування виробника Завантажте інструмент тестування, запишіть його на компакт-диск, перезавантажте, залиште тестування на жорсткому диску протягом ночі. Тест говорить, що накопичувач несправний, і я повинен створити резервну копію всього, якщо я ще можу. Я не знаю, що відбувається, але це не схоже на проблему з програмним забезпеченням, щось напевно лунає жорсткі диски.
Зараз я повинен зазначити, що вся система знаходиться в коробці взуття. Оскільки є набір матеріалів "створити свій власний корпус ikea", я подумав, що не повинно виникнути жодних проблем із викиданням речі в коробку та кудись її кудись. Коробка добре провітрюється, але я подумав, що просто, можливо, накопичувачі перегріваються. Іншої можливої відповіді на це немає. Тож я забрав жорсткий диск назад, і його замінили (втретє), і придбали кулери для жорсткого диска.
І тільки зараз я почув звук приреченості. натисніть клавішу whizzzzzzzzz . SSH в коробку:
You have new mail!
mail
r 1
DegradedArrayEvent on /dev/md0 ...
dmesg вихід:
[47128.000051] ata3: lost interrupt (Status 0x50)
[47128.000097] end_request: I/O error, dev sda, sector 58588863
[47128.000134] md: super_written gets error=-5, uptodate=0
[48043.976054] ata3: lost interrupt (Status 0x50)
[48043.976086] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[48043.976132] ata3.00: cmd c8/00:18:bf:40:52/00:00:00:00:00/e1 tag 0 dma 12288 in
[48043.976135] res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[48043.976208] ata3.00: status: { DRDY }
[48043.976241] ata3: soft resetting link
[48044.148446] ata3.00: configured for UDMA/133
[48044.148457] ata3.00: device reported invalid CHS sector 0
[48044.148477] ata3: EH complete
Резюме:
- Немає можливості перегріву
- 6 дисків вийшли з ладу, 4 з них були абсолютно новими. Зараз я не впевнений, що первісні два були несправними або зазнали того ж, що і нові.
- У системі немає нічого спільного, крім ОС, яка зараз є Ubuntu Karmic (розпочато з Jaunty). Новий МБ, новий процесор, нова оперативна пам’ять, нові кабелі SATA.
- Ні, маленькі отвори на жорсткому диску не закриті
Я плачу. Дійсно. Зараз у мене немає обличчя повертатися до магазину, неможливо, щоб 4 диски вийшли з ладу менше 4 місяців.
Кілька ідей, про які я думав: чи можливо, я щось зіпсував, коли розбиваю диски та повторно синхронізую? Чи може це бути так погано, що він фізично руйнує накопичувач? (оскільки інструмент, що постачається постачальником, говорить про те, що накопичувач пошкоджений) я розбиваю розділ за допомогою fdisk і використовую той же розмір блоку для розділів raid1 (я перевіряю точні розміри блоку за допомогою fdisk -lu)
Чи можливо ядро Linux або mdadm, або щось не сумісне з цією маркою жорстких дисків, і перемолоти їх?
Чи можливо, що це може бути коробка для взуття? Спробуйте розмістити його десь в іншому місці? Зараз він знаходиться під поличкою, тому вологість теж не є проблемою. Чи можливо, що звичайний корпус ПК вирішить мою проблему (я зараз зніму себе)? Я отримаю фотографію завтра.
Я просто проклятий?
Будь-яка допомога чи спекуляція високо цінується.
Редагувати : Силова смуга захищена від перенапруги.
Edit2 : Я перемістився між цими 4 місяцями, тому ймовірність того, що причина "забруднилася" електрикою в обох місцях, дуже низька.
Edit3 : Я перевірив напруги в BIOS (не міг запозичити мультиметр), і всі вони здаються правильними, найбільша розбіжність - у 12В, оскільки вона постачає 11.3. Чи повинен я турбуватися про це?
Edit4 : Я поставив PSU настільного ПК на сервер. BIOS повідомив про набагато більш точні показання напруги, а також успішно відновив масив raid1, який зайняв десь 3-4 години, тому зараз я відчуваю трохи позитиву. Завтра отримаю новий блок живлення для тестування. Також прикріплюючи малюнок про поле: (ігноруйте 3-й диск)