Розшифрування триваючих повідомлень mpt2sas

15

Підсумок

Я отримую ці загадкові повідомлення в syslog з моменту встановлення нового обладнання, і я не можу зрозуміти, в чому проблема, якщо вона серйозна, або що з цим робити.

Вони з нового SATA HBA, і вони слідують схемі. Я отримаю кілька перших повідомлень, а через 5 - 30 секунд кілька інших. Вони надходять у краплі, які реєструються в одну і ту ж секунду, і точна кількість кожного варіюється приблизно від 2 до 35. Між появами записів може пройти хвилин чи години.

Приклад двох повідомлень:

Jul 13 06:06:23 durandal kernel: [366918.435596] mpt2sas0: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Jul 13 06:06:28 durandal kernel: [366923.145524] mpt2sas0: log_info(0x31110d01): originator(PL), code(0x11), sub_code(0x0d01)

Це завжди 0x31120303, а потім 0x31110d01.

mpt2sas є драйвером для адаптера шини хоста SATA, який я використовую, але вміст помилки є надто виразним. Це не говорить мені, в чому проблема, з яким диском чи портом це чи наскільки це серйозно.

Обладнання

Supermicro X9SCL з Xeon E3-1220 та 8 ГБ оперативної пам’яті.

Супермікро AOC-USAS2-L8I SAS / SATA HBA на базі LSI SAS2008 підключений до набору лотків для дисків Supermicro CSE-M35T-1B . У нього три Western Digital WD30EZRX і два Segate ST3000DM001, підключені до нього. Всі накопичувачі 3 ТБ (фактично однакова кількість секторів). Не використовуються розширювачі портів.

HBA, лотки для дисків та 4 диски є новими. Один із WD30EZRX був місяцями, з ним не було проблем. Якщо раніше він був підключений до інтегрованого контролера Intel SATA, перемістив його у відсіки накопичувача за допомогою цієї нової установки.

Проблеми з HBA мали потребу в частому перезавантаженні та отримання дійсно жахливих показників. Оновлено мікропрограмне забезпечення / біографію до "Phase 12", останнього випуску, доступного від Supermicro, і змінив тип на ІТ (тобто перехід, з IR для інтегрованого рейду, оскільки я збирався використовувати весь програмний рейд): 2008IT12.FW. Це оновлення очистило всі ранні випуски, і я не почав отримувати вищезгадані повідомлення пізніше (див. Нижче).

Перші чотири диски, які я додав, знаходяться на першому порту SFF-8087 (розділений на 4 кабелі SATA). Останній доданий мені диск знаходиться на іншому порті, якщо це має значення.

Єдиний інший диск в системі містить ОС, і це старіший накопичувач Intel 80GB SSD, підключений до вбудованого контролера SATA.

Програмне забезпечення

Ubuntu 11.10 (онерік). Linux 3.0.0-14-сервер x86_64. Використання драйвера mpt2sas, який постачається з ОС.

Спроба створити масив RAID6 за допомогою Linux md з цими п'ятьма дисками. Почав із виродженого масиву з 3-х дисків, двох Segates та одного з нових накопичувачів WD. Це було швидко і пройшло дуже добре, після журналу оновлення прошивки не було повідомлень у журналах. Тим часом я все ще використовую старий диск WD на порту 0 того ж контролера.

До масиву додали інший новий диск WD. Початок відновлення, і я періодично отримую ці повідомлення в syslog. Я не впевнений, скільки часу знадобиться додати диск до масиву, але орієнтовний час (cat / proc / mdstat) коливається від тисяч до десятків тисяч хвилин, набагато довше, ніж на перші 3 диски. Я розумію, що диски WD набагато повільніше; У мене з'явилися різні моделі, щоб зменшити шанси на збій декількох дисків, і це були дві найдешевші 3TB моделі.

Примітки

SMART не повідомляє про проблеми на жодних дисках. На будь-яких дисках не зафіксовано помилок, і жодна зі статистичних даних про відмову не знаходиться десь біля порогу.

Повідомлення, що ввійшли в систему, почали з'являтися лише після того, як я додав останній диск, що говорить про те, що у когось може виникнути проблеми, але я нічого іншого не вказую на це.

Я знайшов файл заголовка, який, здається, відповідає повідомленням журналу цього драйвера. Перше повідомлення, схоже, є перервою (код 12) для "підкоду" 0303, який не вказаний. Друге повідомлення - це скидання (код 11) з тієї причини, яка також не зрозуміла. Якби я міг визначити, що означають 0303 та 0d01, це було б дуже корисно.

Я знаю, що 4 диски в 5-дисковому RAID6 - це неповний масив. Я планую скопіювати вміст старого диска в масив, як тільки він закінчить інтегрувати 4-й диск, а потім додати старий диск до масиву.

— Кріс Сміт
джерело

5

Ймовірно, ваша найкраща ставка - це проблема з обладнанням десь між вашими дисками, аж до вашого диспетчера рейдової системи Sas. Рекомендую спробувати:

Запустіть будь-які інструменти діагностики у постачальника, якщо вони доступні
Перевірте / пересадіть / замініть кабелі
викресліть апаратні компоненти та замініть апаратуру в ланцюжку, яка підключає диски до вашого рейдового контролера, включаючи сам контролер (тобто для вас, спробуйте щось інше, ніж інтегрований рейд материнської плати).

У мене було одне з двох однакових Dell PowerEdge R515, які давали дуже схожі повідомлення (журнали періодично заповнюються повідомленнями mpt2sas0, хоча у мене немає точних числових кодів). Власна завантажувальна діагностика Dell сприйняла це як "апаратні помилки", а заміна планки RAID sas вирішила проблему.

Коли я досліджував, я не міг знайти вичерпний ресурс того, що означають різні коди помилок mpt2sas0. Я підозрюю, що вони можуть бути навіть конкретними постачальниками обладнання (тому, хто знає більше про SAS, потрібно це підтвердити або спростувати). Тож ваші коди помилок можуть означати щось зовсім інше, але якщо SMART чистий, важко уявити інші вагомі причини для mpt2sas0 повідомляти про коди помилок.

Ці помилки можуть бути дуже серйозними. Мій R515 працював, здавалося б, добре з цими повідомленнями протягом тижня з 12-ти дисковим набором програмного забезпечення Ubuntu Linux 6, але потім раптом викинув усі 12 дисків з масиву як зламаний (!)

Також у моєму випадку SMART для всіх дисків був повністю чистим. Хороша перевірка - це розумний самодіагностичний тест:, smartctl -t long /dev/sdXа потім перевірити результати приблизно через день smartctl -l selftest /dev/sdX. Якщо все гаразд, тест повинен сказати, Completedа LBA_first_errстовпець повинен бути порожнім.

— Рікард Арміенто
джерело

Примітка: контролер RAID (дійсно HBA) - це вже окрема карта. Бортовий контролер SATA працює чудово. У мене на замовлення кабель SFF-8087, повинен бути тут до завтра. Це мій головний підозрюваний на даний момент.

— Кріс Сміт

Поганий кабель був проблемою! Я замінив їх обох (два порти SFF) на якісні кабелі вищої якості і з тих пір не виникло жодних проблем! Я приймаю Вашу відповідь, оскільки це найдовше і вказує на поганий кабель. PS Я точно робив довгі SMART тести; жодних проблем на жодному з дисків.

— Кріс Сміт

Приємно почути, що ви знайшли проблему. Дякуємо за прийняття.

— Рікард Арм'єнто

Для мене насправді дивно, що я зустрічаюся з цією проблемою і раніше, лише у випадку з платформою Dell PowerEdge. Аналогічний результат був і з кабелями ...

— Mazeryt

3

Вау, жорсткий.

Це , здається, вказує , що 0x31120303 є скидання шини з - за одного з пристроїв , що знаходяться під великим навантаженням. Це також говорить, що вам не потрібно про це турбуватися. (Ха-ха, так.)

Це вказує на те, що ці повідомлення журналу відбуваються тому, що одному з ваших пристроїв потрібно занадто багато часу, щоб відповісти на команди. Це говорить те саме, а також вказує, що воно відбувається під великим навантаженням.

Хоча це не є повною відповіддю, але, сподіваємось, це вкаже вам у корисному напрямку.

— Майкл Хемптон
джерело

Я побачив деякі з цих дописів, але так і не зміг знайти точне повідомлення, яке отримує. Неправильним виявився кабель SFF-8087-> SATA. Дякую за допомогу!

— Кріс Сміт

0

Це означає, що у вас є якась помилка на диску, це диск SATA в контролері SAS від LSI, і через помилку всі непогашені запити були перервані.

У більшості випадків ви маєте середню помилку на диску, яка є тригером для цієї помилки. Ця помилка сама по собі не означає середню помилку, і вам потрібно буде перевірити журнали на наявність інших підказок, щоб знайти, що є джерелом вихідної несправності диска.

Трохи досконаліша версія: http://blog.disksurvey.org/blog/2014/03/27/sata-handling-of-medium-errors-log-info-0x0x31080000/

— Барух Навіть
джерело

Цікавий пост, дякую за обмін! SATA - хитрий протокол, але диски дешеві і роблять все, що мені потрібно. Повідомлення не з’явилося знову, оскільки я замінив несправний кабель.

— Кріс Сміт

1

Більше розшифровки LSI Loginfo можна знайти через утиліту, яку я створив для її розшифровки: blog.disksurvey.org/blog/2014/08/10/decoding-lsi-loginfo-codes

— Baruch Навіть