Monitorování a testování stavu SSD v Linuxu

Co je S.M.A.R.T.?

CHYTRÝ. –for Self-Monitoring, Analysis, and Reporting Technology – je technologie zabudovaná do úložných zařízení, jako jsou pevné disky nebo SSD, a jejímž cílem je monitorovat jejich zdravotní stav.

V praxi S.M.A.R.T. bude během normálního provozu jednotky monitorovat několik parametrů disku, jako je počet chyb při čtení, doby spouštění jednotky nebo dokonce podmínky prostředí. Navíc S.M.A.R.T. a může také provádět testy na vyžádání na disku.

V ideálním případě S.M.A.R.T. by umožnilo předvídat předvídatelné poruchy, jako jsou ty způsobené mechanickým opotřebením nebo degradací povrchu disku, a také nepředvídatelné poruchy způsobené neočekávanou závadou. Protože disky obvykle neselžou náhle, S.M.A.R.T. poskytuje operačnímu systému nebo správci systému možnost identifikovat disky, které brzy selžou, aby je bylo možné vyměnit dříve, než dojde ke ztrátě dat.

Co není S.M.A.R.T.?

Všechno to vypadá báječně. Nicméně S.M.A.R.T. není křišťálová koule. Nemůže se 100% přesností předvídat poruchu a na druhé straně zaručit, že pohon selže bez jakéhokoli včasného varování. V nejlepším případě S.M.A.R.T. by měl být použit k odhadu pravděpodobnosti selhání.

Vzhledem ke statistické povaze predikce selhání je S.M.A.R.T. technologie zvláště zajímá společnost používající velký počet úložných jednotek a byly provedeny terénní studie pro odhad přesnosti S.M.A.R.T. hlášeny problémy s předvídáním potřeby výměny disků v datových centrech nebo serverových farmách.

V roce 2016 provedly Microsoft a The Pennsylvania State University studii zaměřenou na SSD.

Podle této studie se zdá, že nějaký S.M.A.R.T. atributy jsou dobrými indikátory hrozícího selhání. Dokument konkrétně zmiňuje:

Počet přerozdělených (Realloc) sektorů:

Zatímco základní technologie je radikálně odlišná, zdá se, že tento indikátor je ve světě SSD stejně významný, než tomu bylo ve světě pevných disků. Stojí za zmínku kvůli algoritmům pro vyrovnávání opotřebení používaným v SSD. Když několik bloků začne selhávat, je pravděpodobné, že brzy selže mnohem více. Počet selhání programu/vymazání (P/E):

Toto je příznak problému se základním hardwarem flash, kdy disk nebyl schopen vymazat nebo uložit data do bloku. Kvůli nedokonalostem ve výrobním procesu lze jen málo takových chyb předpokládat. Flash paměti však mají omezený počet cyklů vymazání/zápis. Takže ještě jednou, náhlý nárůst počtu událostí může znamenat, že disk dosáhl svého limitu životnosti, a můžeme očekávat, že mnohem více paměťových buněk brzy selže. CRC a neopravitelné chyby (“Chyba dat”):

Tyto události mohou být způsobeny buď chybou úložiště, nebo problémy s interní komunikační linkou disku. Tento ukazatel bere v úvahu obě opravené chyby (tedy bez jakéhokoli problému hlášeného hostitelskému systému) a také neopravené chyby (takže blokuje, že disk ohlásil, že není schopen číst do hostitelského systému). Jinými slovy, opravitelné chyby jsou pro hostitelský operační systém neviditelné, ale přesto ovlivňují výkon disku, protože data musí opravit firmware disku a může dojít k možnému přemístění sektoru. Počet downshiftů SATA:

Kvůli dočasným poruchám, problémům s komunikačním spojením mezi diskem a hostitelem nebo kvůli problémům s interním diskem se může rozhraní SATA přepnout na nižší rychlost signalizace. Snížení úrovně připojení pod nominální rychlost připojení má zřejmý dopad na pozorované výkony disku. Volba nižší rychlosti signalizace není neobvyklá, zvláště u starších jednotek. Tento indikátor je tedy nejvýznamnější, když koreluje s přítomností jednoho nebo několika předchozích.

Podle studie 62 % neúspěšných SSD vykazovalo nejméně jeden z výše uvedených příznaků. Pokud však toto tvrzení obrátíte, znamená to také, že 38 % studovaných SSD selhalo bez vykazující některý z výše uvedených příznaků. Studie však nezmínila, zda neúspěšné jednotky vykazovaly nějaké jiné S.M.A.R.T. hlášena porucha nebo ne. Nelze to tedy přímo srovnávat s 36% selháním bez předchozího upozornění zmíněným u pevných disků v dokumentu Google.

Dokument Microsoft/Pennsylvania State University nezveřejňuje přesné studované modely disků, ale podle autorů většina disků pochází od stejného dodavatele, který zahrnuje několik generací.

Studie zaznamenala významné rozdíly ve spolehlivosti mezi různými modely. Například studovaný „nejhorší“ model vykazuje 20% míru selhání devět měsíců po první chybě přemístění a až 36% míru selhání devět měsíců po prvním výskytu datových chyb. „Nejhorším“ modelem je shodou okolností také starší generace disku studovaná v tomto článku.

Na druhou stranu u stejných příznaků disky nejmladší generace zařízení vykazují pouze 3%, respektive 20% poruchovost pro stejné chyby. Těžko říci, zda lze tato čísla vysvětlit zlepšením konstrukce a výrobního procesu pohonu, nebo jde pouze o důsledek stárnutí pohonu.

Nejzajímavější je, a některé možné důvody jsem uvedl již dříve, že článek zmiňuje, že spíše než hrubou hodnotu se jedná o náhlý nárůst počtu hlášených chyb, které by měly být považovány za alarmující indikátor:

„““ Existuje vyšší pravděpodobnost příznaků předcházejících selhání SSD s intenzivním projevem a rychlou progresí, která brání jejich přežití po několika měsících „““

Jinými slovy, jeden občasný S.M.A.R.T. hlášenou chybu pravděpodobně nelze považovat za signál hrozícího selhání. Když však zdravý SSD začne hlásit stále více chyb, je třeba počítat s krátkodobým až střednědobým selhánímem.

Jak ale zjistit, zda je váš pevný disk nebo SSD v pořádku? Abychom uspokojili vaši zvědavost, nebo proto, že chcete své disky začít bedlivě sledovat, je načase představit smartctl monitorovací nástroj:

Použití smartctl ke sledování stavu vašeho SSD v Linuxu

V Linuxu existují způsoby, jak vypsat disky, ale sledovat S.M.A.R.T. stavu vašeho disku, doporučuji smartctl nástroj, součást smartmontool balíček (alespoň na Debian/Ubuntu).

sudo apt install smartmontools

smartctl je nástroj příkazového řádku, ale je perfektní, zvláště pokud chcete automatizovat sběr dat, zejména na vašich serverech.

První krok při použití smartctl je zkontrolovat, zda váš disk obsahuje S.M.A.R.T. povoleno a je podporováno nástrojem:

sh$ sudo smartctl -i /dev/sdb
smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.9.0-6-amd64] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Momentus 7200.4
Device Model:     ST9500420AS
Serial Number:    5VJAS7FL
LU WWN Device Id: 5 000c50 02fa0b800
Firmware Version: D005SDM1
User Capacity:    500,107,862,016 bytes [500 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    7200 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS T13/1699-D revision 4
SATA Version is:  SATA 2.6, 3.0 Gb/s
Local Time is:    Mon Mar 12 15:54:43 2018 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

Jak můžete vidět, interní pevný disk mého notebooku má skutečně S.M.A.R.T. schopnosti a S.M.A.R.T. podpora je povolena. Takže, co teď s S.MA.R.T. postavení? Jsou zaznamenány nějaké chyby?

Hlášení „všech SMART informací o disku“ je úkolem -a možnost:

sh$ sudo smartctl -i -a /dev/sdb
smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.9.0-6-amd64] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Momentus 7200.4
Device Model:     ST9500420AS
Serial Number:    5VJAS7FL
LU WWN Device Id: 5 000c50 02fa0b800
Firmware Version: D005SDM1
User Capacity:    500,107,862,016 bytes [500 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    7200 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS T13/1699-D revision 4
SATA Version is:  SATA 2.6, 3.0 Gb/s
Local Time is:    Mon Mar 12 15:56:58 2018 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
See vendor-specific Attribute list for marginal Attributes.

General SMART Values:
Offline data collection status:  (0x82)    Offline data collection activity
                    was completed without error.
                    Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)    The previous self-test routine completed
                    without error or no self-test has ever
                    been run.
Total time to complete Offline
data collection:         (    0) seconds.
Offline data collection
capabilities:              (0x7b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003)    Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01)    Error logging supported.
                    General Purpose Logging supported.
Short self-test routine
recommended polling time:      (   2) minutes.
Extended self-test routine
recommended polling time:      ( 110) minutes.
Conveyance self-test routine
recommended polling time:      (   3) minutes.
SCT capabilities:            (0x103f)    SCT Status supported.
                    SCT Error Recovery Control supported.
                    SCT Feature Control supported.
                    SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   111   099   006    Pre-fail  Always       -       29694249
  3 Spin_Up_Time            0x0003   100   098   085    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   095   095   020    Old_age   Always       -       5413
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       3
  7 Seek_Error_Rate         0x000f   071   060   030    Pre-fail  Always       -       51710773327
  9 Power_On_Hours          0x0032   070   070   000    Old_age   Always       -       26423
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   096   037   020    Old_age   Always       -       4836
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   072   072   000    Old_age   Always       -       28
188 Command_Timeout         0x0032   100   096   000    Old_age   Always       -       4295033738
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   056   042   045    Old_age   Always   In_the_past 44 (Min/Max 21/44 #22)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       184
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       104
193 Load_Cycle_Count        0x0032   001   001   000    Old_age   Always       -       395415
194 Temperature_Celsius     0x0022   044   058   000    Old_age   Always       -       44 (0 13 0 0 0)
195 Hardware_ECC_Recovered  0x001a   050   045   000    Old_age   Always       -       29694249
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       1
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       1
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       25131 (246 202 0)
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       3028413736
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       1613088055
254 Free_Fall_Sensor        0x0032   100   100   000    Old_age   Always       -       0

SMART Error Log Version: 1
ATA Error Count: 3
    CR = Command Register [HEX]
    FR = Features Register [HEX]
    SC = Sector Count Register [HEX]
    SN = Sector Number Register [HEX]
    CL = Cylinder Low Register [HEX]
    CH = Cylinder High Register [HEX]
    DH = Device/Head Register [HEX]
    DC = Device Command Register [HEX]
    ER = Error register [HEX]
    ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 3 occurred at disk power-on lifetime: 21171 hours (882 days + 3 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 08 ff ff ff 4f 00      00:45:12.580  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00      00:45:12.580  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00      00:45:12.579  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00      00:45:12.571  READ FPDMA QUEUED
  60 00 20 ff ff ff 4f 00      00:45:12.543  READ FPDMA QUEUED

Error 2 occurred at disk power-on lifetime: 21171 hours (882 days + 3 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 00 ff ff ff 4f 00      00:45:09.456  READ FPDMA QUEUED
  60 00 00 ff ff ff 4f 00      00:45:09.451  READ FPDMA QUEUED
  61 00 08 ff ff ff 4f 00      00:45:09.450  WRITE FPDMA QUEUED
  60 00 00 ff ff ff 4f 00      00:45:08.878  READ FPDMA QUEUED
  60 00 00 ff ff ff 4f 00      00:45:08.856  READ FPDMA QUEUED

Error 1 occurred at disk power-on lifetime: 21131 hours (880 days + 11 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 00 ff ff ff 4f 00      05:52:18.809  READ FPDMA QUEUED
  61 00 00 7e fb 31 45 00      05:52:18.806  WRITE FPDMA QUEUED
  60 00 00 ff ff ff 4f 00      05:52:18.571  READ FPDMA QUEUED
  ea 00 00 00 00 00 a0 00      05:52:18.529  FLUSH CACHE EXT
  61 00 08 ff ff ff 4f 00      05:52:18.527  WRITE FPDMA QUEUED

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     10904         -
# 2  Short offline       Completed without error       00%        12         -
# 3  Short offline       Completed without error       00%         0         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Vysvětlení výstupu příkazu smartctl

To je spousta informací a není vždy snadné je interpretovat. Nejzajímavější částí je pravděpodobně ta označená jako „Vendor Specific SMART Attributes with Thresholds“ . Uvádí různé statistiky shromážděné S.M.A.R.T. zařízení a umožní vám porovnat tyto hodnoty (aktuální nebo vůbec nejhorší) s nějakou prahovou hodnotou definovanou dodavatelem.

Například takto můj disk hlásí přemístěné sektory:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       3

Můžete vidět tento atribut „před selháním“. To jen znamená, že atribut odpovídá anomáliím. Takže, pokud tento atribut překračuje práh, což může být indikátorem hrozícího selhání. Druhou kategorií je „Old_age“ pro atributy odpovídající atributům „normální nošení“.

Poslední pole (zde „3“) odpovídá hrubé hodnotě pro tento atribut, jak je hlášena jednotkou. Obvykle má toto číslo fyzický význam. Zde je skutečný počet přemístěných sektorů. U jiných atributů to však může být teplota ve stupních Celsia, čas v hodinách nebo minutách nebo počet, kolikrát se disk setkal s určitým stavem.

Kromě surové hodnoty, S.M.A.R.T. povolený pohon musí hlásit „normalizované“ hodnoty (hodnota polí, nejhorší a práh). Tyto hodnoty jsou normalizovány v rozsahu 1-254 (0-255 pro práh). Firmware disku provádí tuto normalizaci pomocí nějakého interního algoritmu. Kromě toho mohou různí výrobci normalizovat stejný atribut odlišně. Většina hodnot je uváděna v procentech, přičemž vyšší je nejlepší, ale není to povinné. Když je parametr nižší nebo roven prahové hodnotě dodané výrobcem, říká se, že disk pro tento atribut selhal. Se všemi rezervami zmíněnými v první části tohoto článku, když selže atribut „pre-fail“, pravděpodobně hrozí selhání disku.

Jako druhý příklad se podívejme na „míru chyb hledání“:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  7 Seek_Error_Rate         0x000f   071   060   030    Pre-fail  Always       -       51710773327

Vlastně, a to je problém S.M.A.R.T. hlášení, přesný význam každé hodnoty je specifický pro dodavatele. V mém případě používá Seagate k normalizaci hodnoty logaritmickou stupnici. Takže „71“ znamená zhruba jednu chybu na 10 milionů hledání (10 až 7,1). Je zábavné, že nejhorší za celou dobu byla jedna chyba na 1 milion hledání (10 až 6,0). Pokud to chápu správně, znamená to, že moje hlavy disku jsou nyní umístěny přesněji než v minulosti. Ten disk jsem bedlivě nesledoval, takže tato analýza podléhá opatrnosti. Možná jen potřeboval pohon nějakou dobu záběhu, když byl poprvé uveden do provozu? Není-li to důsledek opotřebení mechanických dílů, a tedy současného menšího tření? V každém případě, ať už je důvod jakýkoli, je tato hodnota spíše ukazatelem výkonu než včasným varováním při selhání. Takže mě to moc netrápí.

Kromě toho a tří podezřelých chyb zaznamenaných asi před šesti měsíci se tento disk jeví v překvapivě dobrém stavu (podle S.M.A.R.T.) pro standardní disk notebooku, který byl zapnutý déle než 1100 dní (26423 hodin):

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  9 Power_On_Hours          0x0032   070   070   000    Old_age   Always       -       26423

Ze zvědavosti jsem provedl stejný test na mnohem novějším notebooku vybaveném SSD:

sh$ sudo smartctl -i /dev/sdb
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.10.0-32-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model:     TOSHIBA THNSNK256GVN8
Serial Number:    17FS131LTNLV
LU WWN Device Id: 5 00080d 9109b2ceb
Firmware Version: K8XA4103
User Capacity:    256 060 514 304 bytes [256 GB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    Solid State Device
Form Factor:      M.2
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ACS-3 (minor revision not indicated)
SATA Version is:  SATA 3.2, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Tue Mar 13 01:03:23 2018 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

První věc, kterou si všimnete, i když je to zařízení S.M.AR.T. povoleno, není v smartctl databáze. To nástroji nezabrání shromažďovat data z SSD, ale nebude schopen hlásit přesný význam různých atributů specifických pro dodavatele:

sh$ sudo smartctl -a /dev/sdb
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.10.0-32-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00)    Offline data collection activity
                    was never started.
                    Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0)    The previous self-test routine completed
                    without error or no self-test has ever
                    been run.
Total time to complete Offline
data collection:         (  120) seconds.
Offline data collection
capabilities:              (0x5b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    No Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003)    Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01)    Error logging supported.
                    General Purpose Logging supported.
Short self-test routine
recommended polling time:      (   2) minutes.
Extended self-test routine
recommended polling time:      (  11) minutes.
SCT capabilities:            (0x003d)    SCT Status supported.
                    SCT Error Recovery Control supported.
                    SCT Feature Control supported.
                    SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000a   100   100   000    Old_age   Always       -       0
  2 Throughput_Performance  0x0005   100   100   050    Pre-fail  Offline      -       0
  3 Spin_Up_Time            0x0007   100   100   050    Pre-fail  Always       -       0
  5 Reallocated_Sector_Ct   0x0013   100   100   050    Pre-fail  Always       -       0
  7 Unknown_SSD_Attribute   0x000b   100   100   050    Pre-fail  Always       -       0
  8 Unknown_SSD_Attribute   0x0005   100   100   050    Pre-fail  Offline      -       0
  9 Power_On_Hours          0x0012   100   100   000    Old_age   Always       -       171
 10 Unknown_SSD_Attribute   0x0013   100   100   050    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0012   100   100   000    Old_age   Always       -       105
166 Unknown_Attribute       0x0012   100   100   000    Old_age   Always       -       0
167 Unknown_Attribute       0x0022   100   100   000    Old_age   Always       -       0
168 Unknown_Attribute       0x0012   100   100   000    Old_age   Always       -       0
169 Unknown_Attribute       0x0013   100   100   010    Pre-fail  Always       -       100
170 Unknown_Attribute       0x0013   100   100   010    Pre-fail  Always       -       0
173 Unknown_Attribute       0x0012   200   200   000    Old_age   Always       -       0
175 Program_Fail_Count_Chip 0x0013   100   100   010    Pre-fail  Always       -       0
192 Power-Off_Retract_Count 0x0012   100   100   000    Old_age   Always       -       18
194 Temperature_Celsius     0x0023   063   032   020    Pre-fail  Always       -       37 (Min/Max 11/68)
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
240 Unknown_SSD_Attribute   0x0013   100   100   050    Pre-fail  Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Toto je obvykle výstup, který můžete očekávat u zcela nového SSD. I když kvůli nedostatku normalizace nebo metainformací pro data specifická pro dodavatele je mnoho atributů hlášeno jako „Unknown_SSD_Attribute“. Mohu jen doufat, že budoucí verze smartctl začlení data vztahující se k tomuto konkrétnímu modelu pohonu do databáze nástrojů, abych mohl přesněji identifikovat možné problémy.

Otestujte svůj SSD v Linuxu pomocí smartctl

Až dosud jsme zkoumali data shromážděná diskem během jeho normálního provozu. Systém S.M.A.R.T. protokol také podporuje několik příkazů „samotestů“ pro spuštění diagnostiky na vyžádání.

Pokud to není výslovně požadováno, mohou se autotesty spouštět během normálních operací s diskem. Vzhledem k tomu, že o jednotku budou soutěžit požadavky testu i hostitelského I/O, výkon disku se během testu sníží. Systém S.M.A.R.T. specifikace specifikuje několik druhů autotestu. Nejdůležitější jsou:

Krátký autotest (-t short )

Tento test zkontroluje elektrické a mechanické vlastnosti a také čtecí výkony měniče. Krátký autotest obvykle trvá jen několik minut (obvykle 2 až 10). Rozšířený autotest (-t long )

Dokončení tohoto testu trvá o jeden nebo dva řády déle. Obvykle se jedná o podrobnější verzi krátkého autotestu. Kromě toho tento test prohledá celý povrch disku na chyby v datech bez časového omezení. Doba trvání testu bude úměrná velikosti disku. Autotest dopravy (-t conveyance )

tato testovací sada je navržena jako relativně rychlý způsob kontroly možného poškození způsobeného během přepravy zařízení.

Zde jsou příklady převzaté ze stejných disků jako výše. Nechám vás hádat, která je která:

sh$ sudo smartctl -t short /dev/sdb
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.10.0-32-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF OFFLINE IMMEDIATE AND SELF-TEST SECTION ===
Sending command: "Execute SMART Short self-test routine immediately in off-line mode".
Drive command "Execute SMART Short self-test routine immediately in off-line mode" successful.
Testing has begun.
Please wait 2 minutes for test to complete.
Test will complete after Mon Mar 12 18:06:17 2018

Use smartctl -X to abort test.

Nyní je vyhlášen test. Počkejme na dokončení, abychom viděli výsledek:

sh$ sudo sh -c 'sleep 120 && smartctl -l selftest /dev/sdb'
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.10.0-32-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%       171         -

Udělejme nyní stejný test na mém druhém disku:

sh$ sudo smartctl -t short /dev/sdb
smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.9.0-6-amd64] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF OFFLINE IMMEDIATE AND SELF-TEST SECTION ===
Sending command: "Execute SMART Short self-test routine immediately in off-line mode".
Drive command "Execute SMART Short self-test routine immediately in off-line mode" successful.
Testing has begun.
Please wait 2 minutes for test to complete.
Test will complete after Mon Mar 12 21:59:39 2018

Use smartctl -X to abort test.

Znovu dvě minuty spěte a zobrazte výsledek testu:

sh$ sudo sh -c 'sleep 120 && smartctl -l selftest /dev/sdb'
smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.9.0-6-amd64] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     26429         -
# 2  Short offline       Completed without error       00%     10904         -
# 3  Short offline       Completed without error       00%        12         -
# 4  Short offline       Completed without error       00%         0         -

Zajímavé je, že v tomto případě se zdá, že jak výrobce, tak mechanika, provedli na disku nějaké rychlé testy (při životnosti 0h a 12h). Já Rozhodně jsem se mnohem méně zabýval sledováním zdraví disku. Takže, protože pro tento článek spouštím nějaké autotesty, začněme rozšířeným otestujte, jak to jde:

sh$ sudo smartctl -t long /dev/sdb
smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.9.0-6-amd64] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF OFFLINE IMMEDIATE AND SELF-TEST SECTION ===
Sending command: "Execute SMART Extended self-test routine immediately in off-line mode".
Drive command "Execute SMART Extended self-test routine immediately in off-line mode" successful.
Testing has begun.
Please wait 110 minutes for test to complete.
Test will complete after Tue Mar 13 00:09:08 2018

Use smartctl -X to abort test.

Apparently, this time we will have to wait much longer than for the short test. So let’s do it:

sh$ sudo bash -c 'sleep $((110*60)) && smartctl -l selftest /dev/sdb'
[sudo] password for sylvain:
smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.9.0-6-amd64] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       20%     26430         810665229
# 2  Short offline       Completed without error       00%     26429         -
# 3  Short offline       Completed without error       00%     10904         -
# 4  Short offline       Completed without error       00%        12         -
# 5  Short offline       Completed without error       00%         0         -

In that latter case, pay special attention to the different outcomes obtained with the short and extended tests, even if they were performed one right after the other. Well, maybe that disk is not that healthy after all! An important thing to notice is the test will stop after the first read error. So if you want an exhaustive diagnosis of all read errors, you will have to continue the test after each error. I encourage you to take a look at the very well written smartctl(8) manual page for the more information about the options -t select,N-max and -t select,cont for that:

sh$ sudo smartctl -t select,810665230-max /dev/sdb
smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.9.0-6-amd64] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF OFFLINE IMMEDIATE AND SELF-TEST SECTION ===
Sending command: "Execute SMART Selective self-test routine immediately in off-line mode".
SPAN         STARTING_LBA           ENDING_LBA
   0            810665230            976773167
Drive command "Execute SMART Selective self-test routine immediately in off-line mode" successful.
Testing has begun.

smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.9.0-6-amd64] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Selective offline   Completed without error       00%     26432         -
# 2  Extended offline    Completed: read failure       20%     26430         810665229
# 3  Short offline       Completed without error       00%     26429         -
# 4  Short offline       Completed without error       00%     10904         -
# 5  Short offline       Completed without error       00%        12         -
# 6  Short offline       Completed without error       00%         0         -

Conclusion

Definitely, S.M.A.R.T. reporting is a technology you can add to your tool chest to monitor your servers disk health. In that case, you should also take a look at the S.M.A.R.T. Disk Monitoring Daemon smartd(8) that could help you automate monitoring through syslog reporting.

Given the statistical nature of failure prediction, I am a little bit less convinced however than aggressive S.M.A.R.T. monitoring is of great benefit on a personal computer. Finally, don’t forget whatever is its technology, a drive will fail— and we have seen earlier, in one-third of the case, it will fail without prior notices. So nothing will replace RAIDand offline backups to ensure your data integrity!

This article was written by Sylvain Leroux