ZFS - Вплив несправності кеш-пристрою L2ARC (Nexenta)


10

У мене є сервер HP ProLiant DL380 G7, який працює як блок зберігання NexentaStor . Сервер має 36 Гб оперативної пам’яті, 2 контролери SAS 9211-8i SAS (відсутні розширювачі SAS), 2 системні накопичувачі SAS, 12 накопичувачів даних SAS, диск із гарячим запасом, кеш-пам'ять Intel X25-M L2ARC та прискорювач DDRdrive PCI ZIL. Ця система обслуговує NFS для декількох хостів VMWare. У мене також є близько 90-100 ГБ подвійних даних на масиві.

У мене було два інциденти, коли продуктивність несподівано запрацювала, залишивши гостей VM та Nexenta SSH / веб-консолей недоступними та вимагаючи повного перезавантаження масиву для відновлення функціональності. В обох випадках не вдалося або було "відхилено" Intel X-25M L2ARC SSD. NexentaStor не зміг попередити мене про помилку кешу, однак загальне попередження ZFS FMA було видно на екрані консолі (що не відповідає).

введіть тут опис зображення

Результат zpool statusпоказав:

  pool: vol1
 state: ONLINE
 scan: scrub repaired 0 in 0h57m with 0 errors on Sat May 21 05:57:27 2011
config:

        NAME                        STATE     READ WRITE CKSUM
        vol1                        ONLINE       0     0     0
          mirror-0                  ONLINE       0     0     0
            c8t5000C50031B94409d0   ONLINE       0     0     0
            c9t5000C50031BBFE25d0   ONLINE       0     0     0
          mirror-1                  ONLINE       0     0     0
            c10t5000C50031D158FDd0  ONLINE       0     0     0
            c11t5000C5002C823045d0  ONLINE       0     0     0
          mirror-2                  ONLINE       0     0     0
            c12t5000C50031D91AD1d0  ONLINE       0     0     0
            c2t5000C50031D911B9d0   ONLINE       0     0     0
          mirror-3                  ONLINE       0     0     0
            c13t5000C50031BC293Dd0  ONLINE       0     0     0
            c14t5000C50031BD208Dd0  ONLINE       0     0     0
          mirror-4                  ONLINE       0     0     0
            c15t5000C50031BBF6F5d0  ONLINE       0     0     0
            c16t5000C50031D8CFADd0  ONLINE       0     0     0
          mirror-5                  ONLINE       0     0     0
            c17t5000C50031BC0E01d0  ONLINE       0     0     0
            c18t5000C5002C7CCE41d0  ONLINE       0     0     0
        logs
          c19t0d0                   ONLINE       0     0     0
        cache
          c6t5001517959467B45d0     FAULTED      2   542     0  too many errors
        spares
          c7t5000C50031CB43D9d0     AVAIL   

errors: No known data errors

Це не викликало жодних сповіщень з боку Nexenta.

У мене було враження, що збій L2ARC не вплине на систему. Але в цьому випадку він, безумовно, був винуватцем. Я ніколи не бачив жодних рекомендацій щодо RAID L2ARC. Видалення поганого SSD повністю з сервера повернуло мене до роботи, але я стурбований наслідком відмови пристрою (а може бути і відсутністю сповіщення від NexentaStor).

Редагувати - Який сьогодні найкращий вибір SSD для кеш-програм L2ARC сьогодні?


Чи можливо, що у вашого SSD або SATA виникли проблеми з обладнанням?
tegbains

Це планка HP SAS. Я ніколи не бачив жодних помилок чи проблем у багатьох (Linux) розгортаннях, але я впевнений, що цей збій є функцією SSD споживчого класу. Я можу погодитися з відмовою, але більша проблема стосується інших дисків та загальної системи зберігання.
ewwhite

Зокрема, Pogo Linux (який я вважаю найбільшим інтегратором / реселлером Nexenta) більше не пропонує пристрої Intel X25 як опцію для L2ARC або ZIL через проблеми з пізнішими версіями прошивки Intel.
Skyhawk

А рекомендована заміна - це (марка, модель, ціна)?
ewwhite

1
До речі, нову серію Intel 320 можна цікаво спробувати як пристрій L2ARC або навіть ZIL: він підтримується конденсаторами, і хоча витривалість запису обмежена (до 60 терабайт залежно від моделі), відсоток зносу, що залишився може слід відстежувати за допомогою атрибута SMART E9 (починається з 100 і відлічується до 1). Я підозрюю, що багато користувачів ZFS можуть замінювати цей пристрій так часто, як це потрібно, щоб запобігти наближенню E9 до 1, без того, щоб сукупні витрати навіть не наближалися до вартості порівняно великого накопичувача SLC.
Skyhawk

Відповіді:


10

ZFS не робить диск вводу / виводу, драйвери пристроїв нижче ZFS роблять диск I / O. Якщо пристрій не реагує своєчасно або, як у цьому випадку, виводить з ладу всі інші пристрої на розширювачі, то це не видно як збій у системі ZFS. Все, що бачить ZFS, - це повільний введення / виведення.

У програмах Intel X-25M є помилка, яка впливає на їх поведінку під час великих навантажень і може спричинити скидання штормів. Ця проблема стосується всіх ОС, і її неможливо вирішити на рівні ОС. Зверніться до постачальника обладнання для виправлення чи виправлення.

Якщо очікується, що читання буде задоволено L2ARC, то його буде зроблено спробу. Потім ZFS покладається на драйвери нижчого рівня, щоб повідомити про помилку. У цьому випадку накопичувач продовжує скидатися та повторюватись протягом 5 хвилин, перш ніж оголосити введення / виведення невдалим, залежно від драйвера, пристрою та налаштувань затримки за замовчуванням. Тільки після того, як драйвери нижнього рівня оголосять введення-виведення як невдалий, ZFS буде повторно спробувати в пулі.

Бігунки NexentaStor для перевірки гучності та перевірки диска шукають додаткові повідомлення про помилки та попереджають вас електронною поштою та реєстрацією несправностей. У випуску 3.1 було покращено пробіг дискової перевірки, щоб допомогти вам попередити конкретно про умови, які демонструє непрацююча вбудована програма на SSD.

Підсумок: ваше обладнання несправне і його потрібно буде виправити або замінити.


2
Дякую. Тому я більше не буду користуватися Intel X-25. Мені хотілося б перевірити рекомендацію щодо нового SSD-пристрою L2ARC для його заміни.
ewwhite

3

Ви підключаєте X25-M SSD до опорної площини? Існує відома проблема з Nexenta і доступом до L2ARC через задній план. Краще всього підключити SSD безпосередньо до порту SATA на материнській платі. Переконайтеся, що він також налаштований для використання AHCI.

Якщо ви виконуєте будь-яку важливу місію на цьому сервері, я перейшов би на SLC SSD (наприклад, X25-E або STEC SSD). Коли це буде сказано, ви, мабуть, будете добре з X25-M, якщо це не так.


Так, я підключаюсь через звичайний відсік приводу. У мене є інші установки з тим самим Intel SSD, що і L2ARC (в апаратних засобах Sun і HP). Хоча саме ця проблема і мені доставила клопоти. Моє дослідження, схоже, свідчить про те, що L2ARC не потребував настільки ж надійного, як ZIL (отже, використання ZIL-рішень на основі PCI та ZIL-рішень та споживчий потяг для L2ARC). Чи змінилося це?
ewwhite

Я б спробував підключити SSD безпосередньо до материнської плати і побачити, чи працює це. Якщо у вас є запасний робочий X25-M, ви можете спробувати замінити поточний і побачити, чи сам SSD поганий. Щодо SLC SSD: це залежить від рівня вашого ризику. Якщо ви використовуєте програмне забезпечення на SLA, яке ніколи не може вийти з ладу і має працювати швидко, можливо, дешевше придбати SSD високого класу.
zippy

Я намагаюся сказати, що Intel X25-M рекомендується для L2ARC у більшості статей та дискусій, які я бачив в Інтернеті. Якщо це вже не так, то який приналежний пристрій?
ewwhite

1
@ewwhite: Теоретично вихід з ладу пристрою L2ARC повинен бути не руйнівним, оскільки ZFS може просто повернутися до зчитування з диска (очевидно, що продуктивність може спричинити удар). На практиці .. добре, це здається, що ви потрапили в помилку драйвера ZFS або scsi, яка викликається поведінкою SSD.
Том Шоу

1
@ewwhite: Мабуть, я маю дати вам ще кілька практичних порад. Якщо ви хочете генерувати дамп із збоїв у системі під час наступного вклинення системи, дотримуйтесь інструкцій тут . Цей тип дампа може бути корисним розробникам Illumos.
Том Шоу

0

Ед, є кілька таких, які можна використовувати, починаючи від відносно розумної ціни до досить дорого дорогої. Я віддаю перевагу розгортанню SSD-дисків SAS у всіх випадках і дуже добре працював із STEC та Pliant. Зараз обидва пропонують MLC-накопичувач, який буде чудово працювати з пристроєм L2ARC. Ще не протестований, але незабаром є пропозиція SSD від Seagate, яка є SLC SAS 2.0 і, за чутками, є "не дорогою". Слідкуйте за…

-ПБ

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.