Jak interpretovat tato data smartctl (smartmon).

Řešení 1:

U disků Seagate (a možná i některých starých od WD) jsou Seek_Error_Rate a Raw_Read_Error_Rate 48bitová čísla, kde nejvýznamnějších 16 bitů představuje počet chyb a nízkých 32 bitů představuje počet operací.

% python
>>> 200009354607 & 0xFFFFFFFF
2440858991
>>> (200009354607 & 0xFFFF00000000) >> 32
46

Váš disk tedy provedl 2440858991 hledání, z nichž 46 se nezdařilo. Moje zkušenost s disky Seagate je, že mají tendenci selhat, když počet chyb překročí 1000. YMMV.

Řešení 2:

RAW_VALUES "hledání chybovosti" a "nezpracovaná četnost chyb při čtení" jsou prakticky bezvýznamné pro nikoho kromě podpory společnosti Seagate. Jak poukázali jiní, nezpracované hodnoty parametrů, jako je „počet přerozdělených sektorů“ nebo záznamy v protokolu chyb disku, pravděpodobněji naznačují vyšší pravděpodobnost selhání.

Ale můžete se podívat na interpretovaná data ve sloupcích VALUE, WORST a THRESH, které mají být čteny jako měřidla:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH
  7 Seek_Error_Rate         0x000f   077   060   030

To znamená, že vaše míra chyb hledání je aktuálně považována za „77 % dobrých“ a SMART ji nahlásí jako problém, když dosáhne „30 % dobrých“. Kdysi to bylo tak nízké jako "60% dobré", ale od té doby se magicky zotavilo. Všimněte si, že interpretované hodnoty jsou vypočítány interně logikou SMART disku a přesný výpočet může, ale nemusí být zveřejněn výrobcem a obvykle jej uživatel nemůže upravit.

Osobně považuji disk obsahující záznamy chybového protokolu za „selhávající“ a naléhavě žádám o výměnu, jakmile k nim dojde. Celkově se však údaje SMART ukázaly jako poměrně slabý indikátor pro předpověď selhání, jak odhalil výzkum publikovaný společností Google.

Řešení 3:

Podle mých zkušeností mají Seagates podivná čísla pro tyto dva atributy SMART. Při diagnostice Seagate mám tendenci je ignorovat a blíže se podívám na jiná pole, jako je počet realokovaných sektorů. Samozřejmě, když máte pochybnosti, vyměňte disk, ale i zcela nové Seagates budou mít vysoké hodnoty pro tyto atributy.

Řešení 4:

Uvědomil jsem si, že tato diskuse je trochu stará, ale chci přidat své 2 centy. Zjistil jsem, že chytré informace jsou docela dobrým indikátorem před selháním. Když dojde k aktivaci inteligentního prahu, vyměňte jednotku. K tomu slouží tyto prahové hodnoty.

V drtivé většině času začnou vidět vadné sektory. To je jasné znamení, že disk začíná selhávat. SMART mě mnohokrát zachránil. Používám softwarový RAID 1 a je velmi užitečný, protože jednoduše vyměníte vadný disk a znovu sestavíte pole.

Týdně také provádím krátký a dlouhý autotest.

smartctl -t short /dev/sda
smartctl -t long /dev/sda

Nebo jej přidejte do /etc/smartd.conf a nechte si jej zaslat e-mailem, pokud se vyskytnou chyby

/dev/sda -s L/../../3/22 -I 194 -m example@unixlinux.onlineomedomain
/dev/sdb -s L/../../7/22 -I 194 -m example@unixlinux.online

Nezapomeňte nainstalovat logwatch a přesměrovat root na e-mailovou adresu a kontrolovat denní e-maily z logwatch. Objeví se tam vypnuté příznaky SMARTD, ale není to k ničemu, pokud to nikdo pravidelně nemonitoruje.

Řešení 5:

Omlouvám se, že jsem se v tomto příspěvku dopustil nekromancie, ale podle mých zkušeností budou pole „Raw Read Error Rate“ a „Hardware ECC Recovered“ pro disk Seagate doslova všude a neustále se zvyšují do bilionového rozsahu, kdy se vrátí zpět na nulu, aby proces znovu pokračoval. Mám Seagate ST9750420AS, který má tento problém od prvního dne a stále funguje skvěle i po několika letech a více než 3500 hodinách používání.

Myslím, že tato pole lze bezpečně ignorovat, pokud je ve vašem případě spouštíte. Jen se ujistěte, že obě pole hlásí stejné číslo a jsou neustále synchronizované. Pokud nejsou...no... Ve skutečnosti to může znamenat problém.

Proč wget neověřuje certifikáty SSL? Jak probudit server poté, co jej UPS vypne po obnovení napájení ze sítě?

Linux