Як перевірити термін служби на SSD або рівень зносу?

31

Всі ми знаємо, що SSD мають обмежений заздалегідь визначений термін служби. Як я можу перевірити в Linux, що таке стан здоров’я на жорсткому диску?

Більшість результатів пошуку Google попросять шукати інформацію SMART для процентного поля під назвою Media_Wearout_Indicator або інших індикаторів жаргонів, таких як Longterm Data Endurance - яких не існує. Так, я перевірив два SSD, в обох відсутні ці поля. Я міг би продовжити пошук третього SSD, але я вважаю, що поля не стандартизовані.

Для демонстрації проблеми ось два приклади.

З першим SSD незрозуміло, яке поле вказує на рівень виткання. Однак є лише один Unknown_Attribute, значення якого у RAW становить від 1 до 100, тому я можу лише припустити, що це те, що ми шукаємо:

    $ sudo smartctl -A /dev/sda                                             
    smartctl 6.2 2013-04-20 r3812 [x86_64-linux-3.11.0-14-generic] (local build)
    Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

    === START OF READ SMART DATA SECTION ===                                 
    SMART Attributes Data Structure revision number: 1                       
    Vendor Specific SMART Attributes with Thresholds:                        
    ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
      5 Reallocated_Sector_Ct   0x0002   100   100   000    Old_age   Always       -       0
      9 Power_On_Hours          0x0002   100   100   000    Old_age   Always       -       6568
     12 Power_Cycle_Count       0x0002   100   100   000    Old_age   Always       -       1555
    171 Unknown_Attribute       0x0002   100   100   000    Old_age   Always       -       0
    172 Unknown_Attribute       0x0002   100   100   000    Old_age   Always       -       0
    173 Unknown_Attribute       0x0002   100   100   000    Old_age   Always       -       57
    174 Unknown_Attribute       0x0002   100   100   000    Old_age   Always       -       296
    187 Reported_Uncorrect      0x0002   100   100   000    Old_age   Always       -       0
    230 Unknown_SSD_Attribute   0x0002   100   100   000    Old_age   Always       -       190
    232 Available_Reservd_Space 0x0003   100   100   005    Pre-fail  Always       -       0
    234 Unknown_Attribute       0x0002   100   100   000    Old_age   Always       -       350
    241 Total_LBAs_Written      0x0002   100   100   000    Old_age   Always       -       742687258
    242 Total_LBAs_Read         0x0002   100   100   000    Old_age   Always       -       1240775277

Отже, цей SSD використав 57% свого періоду перезапису, чи правильно?

На іншому диску SSD_Life_Left ATTRIBUTE виділяється, але його сире значення 0, що вказує на 0% життя, малоймовірно для зовнішньо здорового SSD, якщо це не стане небезпекою (ми побачимо через кілька днів), і якщо він читає "0% життя використано", також неможливо для зношеного жорсткого диска (зношений = використовується більше року).

    > sudo /usr/sbin/smartctl -A /dev/sda
    smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.11.6-4-desktop] (SUSE RPM)
    Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

    === START OF READ SMART DATA SECTION ===
    SMART Attributes Data Structure revision number: 10
    Vendor Specific SMART Attributes with Thresholds:
    ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
      1 Raw_Read_Error_Rate     0x000f   104   100   050    Pre-fail  Always       -       0/8415644
      5 Retired_Block_Count     0x0033   100   100   003    Pre-fail  Always       -       0
      9 Power_On_Hours_and_Msec 0x0032   100   100   000    Old_age   Always       -       4757h+02m+17.130s
     12 Power_Cycle_Count       0x0032   099   099   000    Old_age   Always       -       1371
    171 Program_Fail_Count      0x0032   000   000   000    Old_age   Always       -       0
    172 Erase_Fail_Count        0x0032   000   000   000    Old_age   Always       -       0
    174 Unexpect_Power_Loss_Ct  0x0030   000   000   000    Old_age   Offline      -       52
    177 Wear_Range_Delta        0x0000   000   000   000    Old_age   Offline      -       2
    181 Program_Fail_Count      0x0032   000   000   000    Old_age   Always       -       0
    182 Erase_Fail_Count        0x0032   000   000   000    Old_age   Always       -       0
    187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
    194 Temperature_Celsius     0x0022   030   030   000    Old_age   Always       -       30 (Min/Max 30/30)
    195 ECC_Uncorr_Error_Count  0x001c   104   100   000    Old_age   Offline      -       0/8415644
    196 Reallocated_Event_Count 0x0033   100   100   000    Pre-fail  Always       -       0
    231 SSD_Life_Left           0x0013   100   100   010    Pre-fail  Always       -       0
    233 SandForce_Internal      0x0000   000   000   000    Old_age   Offline      -       3712
    234 SandForce_Internal      0x0032   000   000   000    Old_age   Always       -       1152
    241 Lifetime_Writes_GiB     0x0032   000   000   000    Old_age   Always       -       1152
    242 Lifetime_Reads_GiB      0x0032   000   000   000    Old_age   Always       -       3072

— Танкмен 六四
джерело

З атрибутами SMART нижчі значення гірші, оскільки привід завжди попереджає, якщо значення нижче (або дорівнює? Не впевнене) порогове значення. Зважаючи на це, дуже приємно мати індикатор зносу, але я сподіваюся, що ви не довіряєте дорогоцінні дані жодному пристрою зберігання даних. Вам слід запустити кілька пристроїв зберігання даних в системі RAID.

— Олексій

Як ви знаєте, що мої дані "дорогоцінні"? Це просто офлайн-копія ноу-базу компанії на мій ноутбук. Я коментую, щоб зауважити, що люди занадто часто припускають сценарій сисопу. Дякуємо за ваші коментарі.

— Танкмен 六四

Усі дані дорогоцінні. :) Ми починаємо з цього принципу, а потім переходимо до більш цінних даних (наприклад, цифрові фотографії фотографа) та менш цінних (ОС - просто замінити, але простої та втрата часу / доходу, якщо доведеться замінити).

— Олексій

Обидва приводи знаходяться в межах витривалості. На першому накопичувачі є всього близько 350 Гіб, а на другому - 1,1 TiB. Я не впевнений, що тут відбувається ...

— bwDraco

19

У вашому першому прикладі, на вашу думку, ви маєте на увазі "Індикатор засобів масової інформації" на накопичувачах Intel, атрибут 233. Так, він має діапазон 0-100, причому 100 - це абсолютно новий, невикористаний диск, і 0 повністю зношений. За вашим результатом, схоже, це поле не існує.

У другому прикладі, будь ласка, прочитайте офіційні документи про SSD_Life_Left. На цій сторінці:

Значення RAW цього атрибута завжди дорівнює 0 і не має значення. Перевірте замість цього нормоване значення. Він починається з 100 і вказує на приблизний відсоток часу життя SDD. Зазвичай він зменшується, коли блоки Flash позначені як погані, див. Значення RAW Retired_Block_Count

Це дуже важливо, щоб ви повністю розуміли, що говорить smartctl (8), і не робили припущень. На жаль, інструменти SMART не завжди в курсі останніх SSD-дисків та їх атрибутів. Таким чином, не завжди існує чіткого способу сказати, скільки разів написано фішки. Найкраще, що ви можете зробити, - це переглянути "Power_On_Hours", який у вашому випадку становить "6568", визначити середнє використання диска та оцінити його середнє значення.

Ви повинні мати змогу знайти свої дискові характеристики та визначити процес, який використовується для виготовлення фішок. 32nm технологічні мікросхеми матимуть більшу стійкість до запису, ніж 24nm технологічні мікросхеми. Однак, здається, що "в середньому" ви могли, напевно, очікувати від 3000 до 4000 записів, при мінімум 1000 і максимум 6000. Отже, якщо у вас є 64 Гб SSD, то слід очікувати, що десь у районі буде складено від 192 ТБ до 256 ТБ, записаних на SSD, припускаючи, що рівень зносу.

Як приклад, якщо ви підтримуєте використання, наприклад, 11 кбіт на вашому диску, то ви можете розраховувати, що ви побачите приблизно 40 Мб на годину. За 6568 годин роботи ви записали на диск приблизно 260 ГБ. Знаючи, що ви, ймовірно, можете витримати близько 200 ТБ загальної кількості записів, перед відмовою у вас близько 600 років до виходу з ладу через зношення фішок. Ваш диск, швидше за все, вийде з ладу через зношені конденсатори або регулювання напруги.

— Аарон Топонс
джерело

9

Так ясно, дякую. Ці знання найкраще перетворити на інструмент графічного інтерфейсу, використовуючи smartctl або його API. Якщо все обчислювати калькулятор, використовуючи комп'ютер як пристрій введення, а людина, що сидить перед ним як процесор, суперечить духу, з яким були винайдені комп'ютери!

— Танкман 六四

Здається, ваше посилання мертве

— Скелет Лук

15

Для SSD-дисків Samsung перевірте атрибут SMART 177 (Count Wear Leveling Count).

Ідентифікатор №177 Кількість вирівнювань зносу

Цей атрибут представляє кількість медіапрограм та операцій стирання (кількість разів, коли блок був стертий). Це значення безпосередньо пов'язане з терміном служби SSD. Невизначене значення цього атрибута показує загальну кількість циклів P / E.

Джерело: http://www.samsung.com/global/business/semiconductor/minisite/SSD/M2M/download/07_Communicating_With_Your_SSD.pdf

Індикатор рівня зносу починається з 100 і лінійно зменшується до 1, ніж я можу сказати. На 1 привід перевищить усі його номінальні p / e цикли, але насправді загальна витривалість приводу може значно перевищити це значення.

Джерело: http://www.anandtech.com/show/7173/samsung-ssd-840-evo-review-120gb-250gb-500gb-750gb-1tb-models-ested/3

Я б запропонував прийняти останнє твердження про перевищення цієї цінності із зерном солі.

— Діаа Самі
джерело

Посилання на даний момент померло.

— Лицар обчислення

Я думаю, що вони мають порядок на Wear_Leveling_Count назад. У мене є 2 SSD-диски Samsung, а на тому, що становить ~ 4 роки, є RAW_VALUE у 42, а на іншому, який становить ~ 1 місяць, є RAW_VALUE 0. Здається, що він починається на 0 і з кроком вгору.

— Джон Ейкенберрі

4

Якщо у вас немає SSD-бренда Intel: Будьте уважні !! У мене є Samsung SSD, і мене повністю ввели в оману помилкові маркування атрибутів smartmontools / smartctl. Якщо у вас є що-небудь, окрім Intel - ви можете мені корисною розповісти про (ненормований) біль на https://askubuntu.com/a/460463/65722

Нехай ваше співвідношення якості інформації та часу на копання буде краще, ніж моє!

— Метт С.
джерело

0

маючи сервер з рейдовою карткою LSI , у мене встановлено 7 Samsung SSD.

Це таке, що

/ dev / sda - це моя SSD операційної системи, позначена JBOD від Raid Controller.
Інші 7 SSD відображаються лише як / dev / sdb, тому що вони є RAID 0 (або RAID-?).

щоб отримати інформацію про диски за рейдовим контролером, в чому полягає фокус

smartctl --scan

{output is}
/dev/sda -d scsi # /dev/sda, SCSI device
/dev/sdb -d scsi # /dev/sdb, SCSI device
/dev/bus/0 -d megaraid,8 # /dev/bus/0 [megaraid_disk_08], SCSI device
/dev/bus/0 -d megaraid,9 # /dev/bus/0 [megaraid_disk_09], SCSI device
/dev/bus/0 -d megaraid,10 # /dev/bus/0 [megaraid_disk_10], SCSI device
/dev/bus/0 -d megaraid,11 # /dev/bus/0 [megaraid_disk_11], SCSI device
/dev/bus/0 -d megaraid,12 # /dev/bus/0 [megaraid_disk_12], SCSI device
/dev/bus/0 -d megaraid,13 # /dev/bus/0 [megaraid_disk_13], SCSI device
/dev/bus/0 -d megaraid,14 # /dev/bus/0 [megaraid_disk_14], SCSI device
/dev/bus/0 -d megaraid,15 # /dev/bus/0 [megaraid_disk_15], SCSI device

потім отримати інформацію про smartctl, наприклад,

WEAR_LEVELING_COUNT
POWER_ON_HOURS
TEMPERATURE_CELCIUS та всі інші добрі речі

для кожного диска

smartctl -d megaraid,8 -all /dev/bus/0
smartctl -d megaraid,9 -all /dev/bus/0
smartctl -d megaraid,10 -all /dev/bus/0
{down to}
smartctl -d megaraid,15 -all /dev/bus/0

синтаксис smartctl єsmartctl [options] <device>

ось так ви потрапляєте та проробляєте рейд-карту, коли на декількох дисках не відображаються такі пристрої, як / dev / sdb, / dev / sdc, / dev / sdd тощо.

— ron
джерело