ядро: помилка введення / виводу журналу в журналі


9

У мене є деякі проблеми із сервером Dell 1950. Я встановлюю RHEL 4.6 разом з Oracle та деяким іншим програмним забезпеченням тут.

Я випадковим чином отримую повідомлення про помилку із записом "ядро: помилка журналу введення / виводу" на моєму сеансі ssh та на моніторі я підключився до сервера. in start_transaction: Журнал перервав. "

Це траплялося кілька разів, але ніколи в той же момент під час встановлення. Насправді, востаннє система працювала, і я просто намагався імпортувати базу даних в Oracle.

Це сталося на декількох жорстких дисках, тому я майже впевнений, що це не проблема. Це змушує мене думати, що контролер рейду йде погано.

Як ви думаєте, хлопці?

** ОНОВЛЕННЯ **

Досить впевнений, що це був поганий жорсткий диск. Я кинув ще один накопичувач на сервер, і він працює близько 48 годин із проблемами.

Відповіді:


9

Я бачив ці помилки раніше, але не під час встановлення.

Це означає, що накопичувач отримав достатньо помилок, що ОС взяла його в режим лише для читання. Якщо ви зможете знайти повні журнали, ймовірно, будуть деякі помилки вводу / виводу, які повторно намагалися працювати, перш ніж ви побачили помилки повного збою, які ви побачили. Щось із згаданими фактичними блоками.

Це помилка системи зберігання. Це, безумовно, RAID-карта, накопичувачі в масиві RAID, кабелі від карти до накопичувачів, задні планки, до яких приєднуються диски, слот, до якого входить рейдова карта, джерело живлення для жорстких дисків або щось інше в між процесором і фактичними блоками зберігання.


2

Приходять у голову три можливості:

  1. Є проблеми з пам'яттю (вони часто викликають "випадкові" збої). Якщо у вас є баран ECC, то, очевидно, це менш ймовірно.

  2. Є якась проблема з Автобусом. У мене була та сама проблема з пошкодженим контролером APIC на материнській платі подвійних Opteron кілька років тому. Були й інші записи в журнал, які натякали на це, але основну частину симптомів становили випадкові пошкодження на дискових накопичувачах з автоматичними переказами лише для читання. У моєму випадку я знав, що це не пов’язано з диском, оскільки це зовнішня коробка FC RAID, і це було чудово.

  3. Контролер RAID - двоярусний.

Це в порядку, я б розглядав проблеми.


Напевно, не проблеми з пам’яттю; вони з більшою ймовірністю можуть спричинити segfault та більше випадкових помилок, а не обмежуватимуться лише сховищем.
freiheit

Правда. Але в ситуації встановлення або раннього завантаження, основне використання пам'яті - це буфер-кеш, тому проблеми, як правило, з’являються першими. Після того, як машина деякий час працює, користувальницький процес домінує над входом / виводом пам'яті, і тому поширеність сегмента за замовчуванням. При цьому, PE1950 повинен мати процесори Xeon та ECC таран, щоб оперативна пам'ять мала змогу виявити це та повідомити про це в Linux.
Олександр Кармель-Вельє

2

Можливо, RAID-контролер буде поганим, як ви сказали (спробуйте запасний, якщо у вас є). Це може бути драйвером для контролера (перевірити наявність альтернативних драйверів, якщо вони доступні, навіть якщо продуктивність гірша, добре мати орієнтир .) Це може бути ядро ​​(менш ймовірно, хоча в RHEL це досить добре перевірено.) Це може бути поганою оперативною пам’яттю, що псує кеш-пам'ять блоку.

Однак найімовірнішою є апаратна проблема, яка базується на поведінці, здавалося б, випадкової помилки.


2

Переконайтеся, що диск не повний - зокрема кореневий розділ. Використовуйте df, щоб побачити використання дискової системи файлової системи:

df -h

Шукайте перегородки, близькі до або 100% використання


-5

спробуйте:

відключення -rF зараз

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.