3Будьте, що RAID6 масив іноді висить. Невиявлений зламаний диск?


13

У нас є сервер Debian з 8-накопичувальним RAID-контролером 3Ware 9650SE, з 5 дисковим масивом RAID6, який виступає хостом віртуальної машини, весь Linux. Проблеми продовжують виникати, і я підозрюю, що не виявлений зламаний диск.

Зараз у нас було декілька збоїв, коли і хост, і всі гості кажуть, що система вводу-виводу блокується протягом 120 секунд і більше. Ми підозрювали несправний RAID-контролер, але замінили його на ідентичний з однаковим вбудованим програмним забезпеченням, яке не виправило. Я не думав, що це буде, тому що другий масив RAID1 продовжував працювати належним чином.

Майже тиждень тому (неділя), коли це діяло, автоматична перевірка була на рівні 66%. Минулої ночі (вранці п'ятниці) вона становила 67%. І до, і після завантаження, і обидва під час виникнення проблем. Коли я вимкнув функцію перевірки tw_cli /c0/u0 stop verify, речі знову стали чуйними.

Я підозрюю, що він застряг на несправності диска приблизно на 66%. Автоматична перевірка починається в суботу:

# tw_cli /c0 show verify
/c0 basic verify weekly preferred start: Saturday, 12:00AM

і зазвичай це буде довго робити до п’ятниці. Бачити, як неділя становила 66%, а п’ятниця - 67%, навряд чи це буде випадковістю.

'smartctl -a -d 3ware, 0 / dev / twa0' та 'smartctl -t long' (тривалий SMART самотест) на всіх накопичувачах не виявило жодних помилок. Нічого не робить tw_cli /c0 show alarms.

Я підозрював, що диск зламаний таким чином, що важко виявити, але я виймав кожен диск з масиву по черзі, створював з нього "єдиний" масив і dd'ed повний нулів. Жоден диск не показав помилок.

Або будь-які інші поради?

Редагувати:

це макет:

# tw_cli /c0 show

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-6    OK             -       -       256K    5587.9    RiW    OFF    
u1    SPARE     OK             -       -       -       1863.01   -      OFF    
u2    RAID-1    OK             -       -       -       1862.63   RiW    ON     

VPort Status         Unit Size      Type  Phy Encl-Slot    Model
------------------------------------------------------------------------------
p0    OK             u0   1.82 TB   SATA  0   -            ST32000542AS        
p1    OK             u0   1.82 TB   SATA  1   -            ST32000542AS        
p2    OK             u0   1.82 TB   SATA  2   -            ST32000542AS        
p3    OK             u0   1.82 TB   SATA  3   -            ST32000542AS        
p4    OK             u0   1.82 TB   SATA  4   -            ST32000542AS        
p5    OK             u1   1.82 TB   SATA  5   -            WDC WD2002FYPS-02W3 
p6    OK             u2   1.82 TB   SATA  6   -            WDC WD2002FYPS-02W3 
p7    OK             u2   1.82 TB   SATA  7   -            WDC WD2002FYPS-02W3 

Name  OnlineState  BBUReady  Status    Volt     Temp     Hours  LastCapTest
---------------------------------------------------------------------------
bbu   On           Yes       OK        OK       OK       0      xx-xxx-xxxx

Розглянута одиниця - u0.

edit2:

tw_cli / c0 show diagnost показує щось цікаве (edit3: це нешкідливо, я з’ясував, що це викликано дзвінками, smartctl -a -d 3ware,X /dev/twa0де X - недійсний порт):

QueueAtaPassthrough() called with invalid TargetHandle: 0x17, portHandle: 0xFF

Legacy opcode=0xB1 error=0x10E

E=010E T=14:15:51     : Invalid operation for specified port
E=010E T=14:15:51 U=0 : Return error status to host
Error, Unit 23: Invalid operation for specified port
(EC:0x10e, SK=0x05, ASC=0x24, ASCQ=0x00, SEV=01, Type=0x70)
No additional sense data
Error, Unit 23: 0x10E OVERRIDDEN due to invalid sense buffer descriptor
sense buffer: len=0, address=0x414ca2c7c
Send AEN (code, time): 0031h, 06/21/2013 14:26:16
Synchronize host/controller time
(EC:0x31, SK=0x00, ASC=0x00, ASCQ=0x00, SEV=04, Type=0x71)

Я отримую тонни таких. Я поняття навіть не маю, що це означає. Я навіть не можу зрозуміти, який це пристрій чи порт. (edit3: Я зараз знаю, це нешкідливо).

З огляду на моє редагування3, я повернувся до квадратного. Ніщо не вказує на те, що диск зламаний, за винятком того, що перевірка зависла на 66% і викликає зависання масиву, що також іноді відбувається випадковим чином. Я б хотів, щоб перевірка знайшла провину ...


Які жорсткі диски? Вони офіційно підтримуються?
grs

Я додав макет. Диски ST32000542AS. Вони підтримуються, але більше, сервер працював чудово протягом 3 років.
Halfgaar

У мене виникла проблема з деякими WD-накопичувачами, які в якийсь момент стають дуже повільними. тільки hdparm (тут не можна сумно) показав мені всю пропускну здатність ~ 300 КБ / с (так K!) замість звичайних 80 ~ 100 МБ / с.
Бенджамін Соннтаг

1
Різниця між Enterprise та дисками настільних дисків полягає в тому, що вони працюють з помилками. Якщо на накопичувачі Enterprise трапляється якась помилка, диск випадає з рейду. . (Оскільки користувачі користуються одним накопичувачем, і до тих даних, до яких вони повинні дістатися, і якщо вони випадуть з дисків відразу, виробник буде дуже болісним). Очевидно, ST32000542AS є тихими та економічними дисками настільних версій. наприклад goo.gl/rWb5lj
Rainbow-

Насправді, зовсім недавно цей сервер раптово висів, інакше і сильніше, ніж початкова проблема, і журнали показали тайм-аут на порту RAID. Час очікування був на одному з корпоративних дисків (цього сервера зараз більше).
Halfgaar

Відповіді:


1

2 речі, які до цього часу не виховувались:

  1. Це контролер SATA RAID? Якщо так, кабелі SATA схильні до старіння, а їх заміна може вирішити такі проблеми легко. Більшу частину часу це можна спробувати, коли трапляються помилки диска, затримки, таймаути, але значення SMART все гаразд, і накопичувач проходить усі самотести. На жаль, знайти хороший постачальник кабелю SATA складно.
  2. 3Ware контролери RAID застаріли і не підтримуються в наші дні. Ви не отримаєте ні оновлення прошивки, ні запчастини. У випадку, якщо ваш контролер помирає, RAID може бути неможливим відновити без відповідного програмного забезпечення контролера І. Потім необхідне дороге відновлення даних.

0

Ця проблема може бути пов’язана з тим, що один з дисків зіткнувся з помилкою читання і блокує весь масив, поки йому не вдасться перерозподілити сектор, або контролер RAID припустить, що накопичувач мертвий і не завантажиться з масиву, позначаючи його як "деградований" (це повністю залежить від питання про контролер). Це може траплятися часто, якщо диск починає відмирати, але все-таки проходить SMART. Більшість споживчих дисків продовжуватимуть спроби прочитаного назавжди.

Ця проблема вирішується на деяких дисках, призначених для RAID, використовуючи щось, що називається керування відновленням помилок . WD називає цей TLER. З сайту:

RAID-specific time-limited error recovery (TLER) - Pioneered by WD, this feature prevents drive fallout caused by the extended hard drive error-recovery processes common to desktop drives.

В основному, він говорить диску, що якщо він не в змозі прочитати сектор, здати через х секунд. Це чудово в RAID, оскільки дані можуть бути відновлені з іншого диска.

З того, що я читав, ST32000542AS не реалізує жодної форми ERC, тому будь-яка з них може блокувати весь масив. Фактично, WD2002FYPS реалізує TLER WD, щоб вони не спричинили цю проблему.


0

Просто для того, щоб переконатися, що ваша версія прошивки?

У мене виникла проблема - яка дуже схожа на те, що ви описуєте - коли виконуються наступні вимоги:

  • Контролер серії 3xx 96xx
  • РАЙД 6
  • Розмір смужки 256k
  • Версія прошивки <v4.10.00.021 *

На той час не було доступно виправлення програмного забезпечення, тому я перейшов з 256k до 64k розміру смуги, що також вирішило проблему. Ви можете спробувати як вирішити, хоча це, звичайно, займе кілька днів.

Пізніше я спробував нову прошивку (* 4.10.00.021, я думаю, виправив) з 256k і працював як шарм. 4.10.00.027 - остання версія.


У нас більше немає проблеми. Перевірка завжди була успішною. Однак ми все-таки отримали повний сервер, який висів кілька місяців тому (після довгого часу проблем не було). Дмесг сказав, що диск x закінчився. Я не знаю, чому контролер не відбив його, але, хоча він не був явно позначений як деградований, я його замінив. І з того часу були замінені й інші диски. Тож, ймовірно, це була проблема з диском.
Halfgaar

0

У мене були проблеми з контролером 3ware та накопичувачами Seagate. Існує тонка несумісність прошивки. Я перейшов на накопичувачі Samsung, проблема вирішена.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.