Чи безпечно використовувати споживчі MLC SSD на сервері?


44

Ми (і ми маємо на увазі Джеффа) розглядаємо можливість використання Consumer MLC SSD-дисків у нашому резервному центрі обробки даних.

Ми хочемо спробувати зменшити витрати і витратити на корисну площу - тому Intel X25-E коштує майже 700 доларів за кожен і 64 Гб ємності.

Те, що ми думаємо робити, - це придбати частину SSD нижнього кінця, які пропонують більшу ємність за нижчою ціною. Мій бос не вважає, що витратити близько 5 кб на диски на серверах, що закінчуються із резервного центру даних, не варто інвестувати.

Ці накопичувачі будуть використовуватися в 6-дисковому RAID-масиві на Lenovo RD120. Контролер RAID - це Adaptec 8k (ребрендований Lenovo).

Наскільки небезпечний такий підхід і що можна зробити для зменшення цих небезпек?


4
Що обґрунтовує використання SSD замість прядок? Народна мудрість щодо продуктивності SSD - це "оплатити або не турбувати", але, безумовно, є й інші аспекти, які можуть бути перевагою.
peterchen

Мені цікаво проблема, яку ви намагаєтеся вирішити тут. Якщо це просто одна з витрат, чому SSD вважаються замість звичайних накопичувачів?
Джон Гарденєр

@peterchen, ви можете використовувати або пару SSD, або п'ятдесят 15K шпинделів.
Mircea Chirea

@iconiK - ти маєш на увазі "для сервера, вам все одно потрібно витратити багато грошей"? Якщо так - так, тому мені теж було цікаво.
peterchen

Відповіді:


61

Кілька думок;

  • SSD мають "перезавантаження" пам'яті. Це пам'ять, яка використовується замість осередків, пошкоджених при записі. SSD з низьким кінцем можуть мати лише 7% простору перезавантаження; середній діапазон близько 28%; а фірмові диски аж на 400%. Розглянемо цей фактор.
  • Скільки ви будете писати їм за день? Навіть середні діапазони SSD, такі як ті, що базуються на 1200 мікросхемах Sandforce, рідко оцінюють понад 35 ГБ записів на день, перш ніж серйозно врізатися в перезавантажену пам'ять.
  • Зазвичай перший день нового SSD заповнений записом, будь то ОС або дані. Якщо у вас є значно більше> 35 ГБ записів у перший день, спробуйте скопіювати це в пакети, щоб дати SSD деякий «охайний час» між партіями.
  • Без підтримки TRIM продуктивність випадкового запису може знизитися на 75% протягом декількох тижнів, якщо протягом цього періоду буде багато запису - якщо ви можете, скористайтеся ОС, яка підтримує TRIM
  • Внутрішні процеси збору сміття, які виконують сучасні SSD, дуже специфічно здійснюються в спокійні періоди, і він зупиняється на активності. Це не проблема для настільного ПК, де диск може бути тихим протягом 60% звичайного 8-годинного робочого циклу, але ви запускаєте цілодобову послугу ... коли цей процес отримає шанс запуститися?
  • Зазвичай він закопується в глибині специфікацій, але, як і звичайні диски cheapo, також недорогі SSD-диски також повинні мати близько 30% робочого циклу. Ви будете користуватися ними майже 100% часу - це вплине на швидкість MTBF.
  • Незважаючи на те, що SSD не страждають одними і тими ж механічними проблемами, що їх мають звичайні диски, вони мають одиночні та багаторозрядні помилки - тому рішуче враховуйте RAIDing, навіть якщо інстинкт цього не має. Очевидно, це вплине на всю прекрасну швидкість випадкового запису, яку ви тільки що купили, але все одно врахуйте.
  • Це все ще SATA, а не SAS, тож управління чергою не буде настільки хорошим у серверному середовищі, але знову ж таки, збільшення додаткової продуктивності буде досить драматичним.

Удачі - просто не 'обсмажуйте' їх написами :)


2
Ви маєте на увазі 400% для додаткового простору, або 40%? Я збирався відредагувати вашу відповідь, але не зміг знайти цитування, тому я припускаю, що це може бути 400%. (До речі, це дуже вдалий момент)
ChrisInEdmonton

9
Також не завжди зрозуміло, чи підтримується TRIM у конфігурації RAID. Пам'ятайте, що жорсткі диски віддалені від ОС за допомогою RAID. Обов’язково зверніться до постачальника RAID.
Метт Шерман

5
Я мав на увазі 400 Кріса, конкретно тих, що використовуються у ФК SAN, але дуже витратний, але дуже.
Chopper3

5
Один трюк, щоб отримати більше запасного простору з накопичувача, - це зробити безпечне стирання, а потім розділити його великою часткою, що не використовується. Цей вільний простір додасть продуктивності та терміну експлуатації SSD.
Зан Лінкс

1
Просто хочу позначити +1 з @ZanLynx .. Я зазвичай розділяю лише 80% диска, коли я використовую SSD + Raid.
Tracker1

12

Я знайшов це посилання, в якому є цікавий і ретельний аналіз MLC vs SLC SSD на серверах

На мій погляд, використання флеш-SSD масиву MLC для корпоративного додатку, хоча б не використовуючи (заявлене) зношення, пом'якшувальну дію такої технології, як MFT Easyco, це як стрибок з літака без парашута.

Зауважте, що деякі постачальники SSD MLC стверджують, що їх накопичувачі достатньо "підприємливі", щоб пережити записи:

SandForce має на меті бути першою компанією з контролером, який підтримує багаторівневі флеш-флешки для твердотільних накопичувачів, що використовуються на серверах. Використовуючи мікросхеми MLC, SF-1500 відкриває шлях до зниження вартості та більшої щільності накопичувачів серверів, які хочуть виробники. На сьогоднішній день на флеш-накопичувачах для серверів використовуються однорівневі флеш-флешки. Це тому, що витривалість і надійність мікросхем MLC, як правило, не відповідали вимогам серверів.

Далі проводиться аналіз цих тверджень в AnandTech .

Крім того, тепер Intel продовжує записувати, що SLC може бути надмірним на серверах у 90% часу :

"Ми вважали, що SLC [однорівневий осередок] необхідний, але те, що ми виявили завдяки дослідженням з Microsoft і навіть Seagate, це те, що програми, що вимагають великих обчислень, справді не пишуть так багато, як вони думали", - сказав Уінслоу. "Дев'яносто відсотків додатків центру обробки даних можуть використовувати цей MLC [багаторівневий елемент].

.. За останній рік або близько того, продавці визнали, що, використовуючи спеціальне програмне забезпечення в контролерах приводів, вони можуть підвищити надійність та стійкість своїх споживчих класів MLC SSD до тієї точки, коли підприємства прийняли їх за високопродуктивні сервери центрів обробки даних та масиви зберігання даних. Постачальники SSD почали використовувати термін eMLC (підприємство MLC) Flash NAND для опису цих SSD.

"З точки зору обсягу, ми бачимо, що дійсно є високоінтенсивні обчислювальні середовища, що вимагають високої продуктивності, для яких все ще може знадобитися SLC, але це в топ-10% навіть вимог корпоративного центру даних", - сказав Уінслоу.

Intel годує ці верхні 10% ринку корпоративного центру даних завдяки спільному підприємству з Hitachi Global Storage Technologies. Hitachi виробляє лінію SSD400S з послідовно прикріпленими SSSI SSD, що має 6 Гбіт / сек. пропускна здатність - вдвічі більша за його SATA-диски на основі MLC.

Навіть для своїх SSD-накопичувачів, орієнтованих на сервер, Intel перемістилася від SLC до MLC з дуже високим простором "overprovisioning" з новою серією Intel SSD 710 . Ці накопичувачі виділяють до 20% загального обсягу пам’яті для надмірності внутрішньо:

Продуктивність не є головним пріоритетом для SSD 710. Натомість Intel прагне забезпечити витривалість на рівні SLC за розумною ціною, використовуючи більш дешевий eMLC HET NAND. SSD 710 також підтримує налаштовану користувачем перевитрату (20%), що значно підвищує витривалість приводу. Гарантія SSD 710 становить 3 роки або поки індикатор зносу не досягне певного рівня, залежно від того, що відбувається раніше. Це перший раз, коли ми побачили обмеження гарантії SSD таким чином.


7

Завжди базуйте такі речі на фактах, а не на припущеннях. У цьому випадку збір фактів простий: запишіть довгострокові читання / записи IOPS-профілів ваших виробничих систем, а потім з’ясуйте, з чим можна жити за сценарієм відновлення після аварій. У якості вимірювання слід використовувати щось на зразок 99-го процентиля. Як НЕ використовувати середні значення при вимірюванні IOPS cpacity - піки все , що справа! Тоді вам потрібно придбати необхідну ємність та IOPS у міру необхідності для вашого DR-сайту. SSD можуть бути найкращим способом зробити це, а може й ні.

Так, наприклад, якщо ваші виробничі програми вимагають 7500 IOPS при 99-му перцентилі, ви можете вирішити, що ви можете жити з 5000 IOPS в умовах катастрофи. Але це як мінімум 25 дисків 15K, необхідних саме там, на вашому сайті DR, тому SSD може бути кращим вибором, якщо потреби у вашій ємності невеликі (звучить так, як є). Але якщо ви тільки оцінюєте, що ви робите 400 IOPS у виробництві, просто купуйте 6 накопичувачів SATA, заощаджуйте собі трохи монет та використовуйте додатковий простір для зберігання більшої кількості резервних знімків на сайті DR. Ви також можете розділити читання та запис у вашій колекції даних, щоб визначити, як довго триватимуть непідприємницькі SSD для вашої роботи на основі їх специфікацій.

Також пам’ятайте, що системи DR можуть мати меншу пам’ять, ніж виробництво, а це означає, що потрібно більше IOPS (більше заміни та менше кешу файлової системи).


5

Навіть якщо MLS SSD прослужив лише один рік, через роки заміни будуть набагато дешевшими. Тож чи зможете ви впоратися з необхідністю заміни SSD MLS, коли вони кудись?


хороший момент, тим більше, що вони будуть знаходитись в RAID-масиві .. до тих пір, поки "занадто багато" з них не вийде з ладу відразу, це насправді правдоподібно.
Джефф Етвуд

@ Джефе, якщо ви зможете поміняти деякі з них на своїх настільних ПК, щоб усі не отримали деякий патент використання, це зробить його менш охайним, вони будуть одночасно виходити з ладу.
Ян Рінроуз

@Jeff, я думаю, що в значній мірі, Fail == "почати робити дуже повільні права", південний, то "не читати дані"
Ian Ringrose

не любите автоматичне виправлення :-)
Jeroen Wiert Pluimers

3

Якщо ми відкладемо проблему з кількістю записів (або докажемо, що жорсткі диски на рівні споживачів можуть вирішити цю проблему), я думаю, що SSD-диски - це хороша річ, яку слід додати до середовищ корпоративного рівня. Ви, ймовірно, будете використовувати SSD в масиві RAID. RAID5 або RAID6. І проблема з цим полягає в тому, що після одного поломки накопичувача масив стає все більш вразливим до відмови. А час на його відновлення сильно залежить від обсягу масиву. До відновлення декількох туберкульозних систем може знадобитися кілька днів, а до нього постійно доступ. У випадку SSD-дисків масиви RAID будуть: a) неминуче меншими; b) час відновлення різко зменшується.


3

Біла книга про відмінності між SLC та MLC від SuperTalent ставить витривалість MLC та 10-ту витривалість SLC SSD, але ймовірність того, що MLS SSD не переживе апаратне забезпечення, яке ви їх все одно вкладаєте. Я не впевнений, наскільки надійні ці статистичні дані / факти від SuperTalent, хоча.

Якщо припустити, що ви отримаєте подібний рівень підтримки від постачальника SSD MLC, то нижча ціна робить його вартим.


1
Згадано 5-річний термін експлуатації для типового настільного використання. Якщо це точна оцінка, вони не збираються переживати сервер у середовищі центру обробки даних!
JamesRyan

@JamesRyan: Хоча це не показано у більшості розрахунків, термін експлуатації дуже залежить від частки вільного простору.
Бен Войгт

1
В організаціях, над якими я працював, ми завжди ставили оновлення апаратного забезпечення сервера протягом 3 років. Я мав враження, що загальноприйнята найкраща практика, але виправте мене, якщо я помиляюся.
chunkyb2002

3

Вам слід просто обчислити кількість щоденних записів із поточним налаштуванням і порівняти те, з чим виробник гарантує, що їх SSD накопичувачі можуть підтримувати. Intel, здається, є найбільш передовим у цьому - наприклад, погляньте на їх основні таблиці даних накопичувача SSD: http://www.intel.com/design/flash/nand/mainstream/technicaldocuments.htm

Розділ 3.5 (3.5.4, зокрема) документа специфікації говорить, що ви гарантовано матимете свій привід протягом принаймні 5 років з 20 ГБ записів на день. Я припускаю, що це обчислюється при використанні всієї ємності приводу і не надає вільного місця для запису самостійно.

Також цікавим є лист даних щодо використання основних потоків жорстких дисків у корпоративному середовищі.


На жаль, це зовсім не так просто, оскільки вирівнювання зносу посилює написання (пам’ятайте, що він розроблений для розповсюдження записів, а не зменшення їх) таким чином, який є власним і може сильно відрізнятися своєю ефективністю на основі схеми використання.
JamesRyan

Гм, дуже хороший момент. Також втрата команди TRIM, якщо використання накопичувачів у налаштуваннях RAID, також повинна посилити посилення запису. Я думаю, що все зводиться до ідеї кожного виробника про типову схему використання.
cearny

2

Пару років тому я розгорнув пару 32 Гбіткових драйверів SLC як буфер для якогось жахливо погано розробленого додатка, який ми використовували.

Програма мала 90% записів (<4k) і працювала послідовно (24/7) при 14k w / s один раз на SSD-накопичувачах. Вони були налаштовані RAID 1, все було райдужно, затримка була низькою!

Однак приблизно через місяць і перший накопичився, буквально за 3 години, другий привід також помер. RAID 1 зрештою не такий хороший план :)

Я погодився б з іншими плакатами на якомусь RAID 6, якщо ніщо інше не поширює ці записи на більше дисків.

Тепер майте на увазі, що це було пару років тому, і ці речі зараз набагато надійніші, і у вас, можливо, немає подібного профілю вводу / виводу.

Додаток було перепроектовано, однак, як стоп-розрив, який може допомогти вам, а може і не допомогти, ми створили великий операційний диск, створили кілька сценаріїв, щоб відновити / створити резервну копію операційного диска і прийняти ударну годину або близько втрати даних /час відновлення.

Знову ж таки, ваш життєвий цикл даних може бути різним.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.