Жорсткі диски, що випадають в автономному режимі з невідомих причин


11

У мене 7 систем, що працюють із налаштуваннями нижче. Час від часу інший диск випадає в автономному режимі, але при більш детальному огляді диск хороший і не несправний і працює бездоганно принаймні ще рік. Оскільки це відбувається в усіх 7 системах, мені здається, що є одна частина, яка діє (наприклад, кабель), але це замість того, щоб комбінація деяких частин була трохи несумісною.

Проблема полягає в тому, щоб знайти точну точку, де знаходиться несумісність.

(Якщо натомість у вас є обхід, де ви можете зробити віртуальну перестановку жорсткого диска з командного рядка, ви можете відповісти на /server/523315/re-activate-device -то - вважається - мертвим ).

Серверне обладнання: Dell 1950, Dell R815, Dell R715.

Операційна система:

$ uname -a
Linux franklin 3.2.0-4-amd64 #1 SMP Debian 3.2.41-2+deb7u2 x86_64 GNU/Linux

Контролер:

$ lspci |grep 22: 
22:00.0 Serial Attached SCSI controller: LSI Logic / Symbios Logic SAS2008 PCI-Express Fusion-MPT SAS-2 [Falcon] (rev 03)
$ sas2flash -listall
LSI Corporation SAS2 Flash Utility
Version 15.00.00.00 (2012.11.06) 
Copyright (c) 2008-2012 LSI Corporation. All rights reserved

    Adapter Selected is a LSI SAS: SAS2008(B2)   

Num   Ctlr            FW Ver        NVDATA        x86-BIOS         PCI Addr
----------------------------------------------------------------------------

1  SAS2008(B2)     15.00.00.00    0f.00.00.04    07.29.00.00     00:22:00:00

    Finished Processing Commands Successfully.
    Exiting SAS2Flash.

SAS / SATA-розширювач Supermicro 4U SAS / SATA Expander Backplane з одним LSI SAS2X36 Expander Chip:

cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:21/end_device-5:0:21/target5:0:21/5:0:21:0/model
SAS2X36         
cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:21/end_device-5:0:21/target5:0:21/5:0:21:0/rev
0717

Диски:

$ cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:1/end_device-5:0:1/target5:0:1/5:0:1:0/model
Hitachi HDS72404
$ cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:1/end_device-5:0:1/target5:0:1/5:0:1:0/rev
A3B0

Диски в одній системі:

$ cat /sys/devices/pci0000:20/0000:20:0b.0/0000:23:00.0/host5/port-5:0/expander-5:0/port-5:0:8/end_device-5:0:8/target5:0:8/5:0:8:0/model
ST3000DM001-9YN1
$ cat /sys/devices/pci0000:20/0000:20:0b.0/0000:23:00.0/host5/port-5:0/expander-5:0/port-5:0:8/end_device-5:0:8/target5:0:8/5:0:8:0/rev
CC4C

Syslog:

sd 5:0:22:0: [sdw] Unhandled error code
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
sd 5:0:22:0: [sdw] Unhandled error code
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
sd 5:0:22:0: [sdw]
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b9 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982694144
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b7 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982693632
sd 5:0:22:0: [sdw] Unhandled error code
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Read(16):
sd 5:0:22:0: [sdw] Unhandled error code
 88 00 00 00 00 01 43 e2 f2 d0 00 00 00 10 00 00
end_request: I/O error, dev sdw, sector 5433914064
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 bd 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982695168
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
md/raid:md4: Disk failure on sdw, disabling device.
md/raid:md4: Operation continuing on 9 devices.
scsi 5:0:22:0: [sdw] Unhandled error code
scsi 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
scsi 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b8 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982693888
scsi 5:0:22:0: [sdw] Unhandled error code
scsi 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
scsi 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 bc 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982694912
mpt2sas1: removing handle(0x0021), sas_addr(0x500304800182694c)

9
+1 для початку задавати важливі питання :)
Sven

Неправильний кабель, який не має екранування, може спричинити проблеми з контрольними сумами. [таким чином викликаючи проблеми з читанням і записом]. Ви спробували замінити кабелі?
monksy

Кабелі були замінені відомими товарами. Також я б очікував, що Linux повторно спробує виконати команду після скидання шини scsi.
Оле Танге

2
З того, що мені вдалося викопати поки що, повідомлення вказують на проблеми з підключенням, а не на SMART-сповіщеннях. Все, що я знаю, це те, що вони тримаються подалі від S-ATA дисків у великих налаштуваннях через відсутність команд / черг порівняно з SAS. Я попрошу кілька поглянути на це.
pauska

@pauska Чи можете ви детально (із посиланнями) розробити те, що ви викопали?
Оле Танге

Відповіді:


1

Тут нам бракує інформації. Ви пропонуєте мати 24-45 дисків на сервері в цій програмі зберігання.

  • Який конкретний контролер ви використовуєте?
  • Завдяки кількості дисків у вас можуть бути деякі диски у зовнішньому корпусі. Укажіть марку / модель корпусу зовнішнього накопичувача.
  • Які конкретні моделі приводів ви використовуєте? Чи всі диски настільних дисків?
  • Яку файлову систему ви використовуєте?
  • Опишіть макет диска та RAID.
  • Чи завжди це була проблема чи вона розвивалася з часом?
  • чи Supermicro бере участь десь у цій установці?

Залежно від налаштування корпусу, ви можете зіткнутися з таймаутами SATA або помилками шини. Це може негативно вплинути на всі накопичувачі, приєднані до контролера.

Іншим питанням може бути погане узгодження зв’язку SAS / SATA. Я, звичайно, відчував це на деяких розширювачах SAS, коли на одній платі змішуються диски 1,5 Гбіт / с і 6,0 Гбіт / с.

Будь ласка, надайте більше інформації.


Мене дуже цікавить ваше питання про Supermicro. Чи можете ви докладно?
Halfgaar

@Halfgaar Чи можете ви надати відгук щодо інших запитань?
ewwhite

Оригінальний пост не мій. Мені просто цікаво це твердження.
Halfgaar

1
@Halfgaar Ooops ... Ну, я виявив, що Supermicro SAS розширені / опорні площини та деякі корпуси JBOD не ведуть себе передбачувано у багатьох обставинах. Примітка у моїй відповіді про зниження швидкості переключення передач та узгодження SAS / SATA - це те, що я відчував лише на певних версіях передач Supermicro. Я також не можу більше використовувати їхні JBOD для ZFS через химерну поведінку.
ewwhite
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.