У нас є сервер Debian з 8-накопичувальним RAID-контролером 3Ware 9650SE, з 5 дисковим масивом RAID6, який виступає хостом віртуальної машини, весь Linux. Проблеми продовжують виникати, і я підозрюю, що не виявлений зламаний диск.
Зараз у нас було декілька збоїв, коли і хост, і всі гості кажуть, що система вводу-виводу блокується протягом 120 секунд і більше. Ми підозрювали несправний RAID-контролер, але замінили його на ідентичний з однаковим вбудованим програмним забезпеченням, яке не виправило. Я не думав, що це буде, тому що другий масив RAID1 продовжував працювати належним чином.
Майже тиждень тому (неділя), коли це діяло, автоматична перевірка була на рівні 66%. Минулої ночі (вранці п'ятниці) вона становила 67%. І до, і після завантаження, і обидва під час виникнення проблем. Коли я вимкнув функцію перевірки tw_cli /c0/u0 stop verify
, речі знову стали чуйними.
Я підозрюю, що він застряг на несправності диска приблизно на 66%. Автоматична перевірка починається в суботу:
# tw_cli /c0 show verify
/c0 basic verify weekly preferred start: Saturday, 12:00AM
і зазвичай це буде довго робити до п’ятниці. Бачити, як неділя становила 66%, а п’ятниця - 67%, навряд чи це буде випадковістю.
'smartctl -a -d 3ware, 0 / dev / twa0' та 'smartctl -t long' (тривалий SMART самотест) на всіх накопичувачах не виявило жодних помилок. Нічого не робить tw_cli /c0 show alarms
.
Я підозрював, що диск зламаний таким чином, що важко виявити, але я виймав кожен диск з масиву по черзі, створював з нього "єдиний" масив і dd'ed повний нулів. Жоден диск не показав помилок.
Або будь-які інші поради?
Редагувати:
це макет:
# tw_cli /c0 show
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-6 OK - - 256K 5587.9 RiW OFF
u1 SPARE OK - - - 1863.01 - OFF
u2 RAID-1 OK - - - 1862.63 RiW ON
VPort Status Unit Size Type Phy Encl-Slot Model
------------------------------------------------------------------------------
p0 OK u0 1.82 TB SATA 0 - ST32000542AS
p1 OK u0 1.82 TB SATA 1 - ST32000542AS
p2 OK u0 1.82 TB SATA 2 - ST32000542AS
p3 OK u0 1.82 TB SATA 3 - ST32000542AS
p4 OK u0 1.82 TB SATA 4 - ST32000542AS
p5 OK u1 1.82 TB SATA 5 - WDC WD2002FYPS-02W3
p6 OK u2 1.82 TB SATA 6 - WDC WD2002FYPS-02W3
p7 OK u2 1.82 TB SATA 7 - WDC WD2002FYPS-02W3
Name OnlineState BBUReady Status Volt Temp Hours LastCapTest
---------------------------------------------------------------------------
bbu On Yes OK OK OK 0 xx-xxx-xxxx
Розглянута одиниця - u0.
edit2:
tw_cli / c0 show diagnost показує щось цікаве (edit3: це нешкідливо, я з’ясував, що це викликано дзвінками, smartctl -a -d 3ware,X /dev/twa0
де X - недійсний порт):
QueueAtaPassthrough() called with invalid TargetHandle: 0x17, portHandle: 0xFF
Legacy opcode=0xB1 error=0x10E
E=010E T=14:15:51 : Invalid operation for specified port
E=010E T=14:15:51 U=0 : Return error status to host
Error, Unit 23: Invalid operation for specified port
(EC:0x10e, SK=0x05, ASC=0x24, ASCQ=0x00, SEV=01, Type=0x70)
No additional sense data
Error, Unit 23: 0x10E OVERRIDDEN due to invalid sense buffer descriptor
sense buffer: len=0, address=0x414ca2c7c
Send AEN (code, time): 0031h, 06/21/2013 14:26:16
Synchronize host/controller time
(EC:0x31, SK=0x00, ASC=0x00, ASCQ=0x00, SEV=04, Type=0x71)
Я отримую тонни таких. Я поняття навіть не маю, що це означає. Я навіть не можу зрозуміти, який це пристрій чи порт. (edit3: Я зараз знаю, це нешкідливо).
З огляду на моє редагування3, я повернувся до квадратного. Ніщо не вказує на те, що диск зламаний, за винятком того, що перевірка зависла на 66% і викликає зависання масиву, що також іноді відбувається випадковим чином. Я б хотів, щоб перевірка знайшла провину ...