GNU/Linux >> Znalost Linux >  >> Linux

Jak interpretovat tato data smartctl (smartmon).

Řešení 1:

U disků Seagate (a možná i některých starých od WD) jsou Seek_Error_Rate a Raw_Read_Error_Rate 48bitová čísla, kde nejvýznamnějších 16 bitů představuje počet chyb a nízkých 32 bitů představuje počet operací.

% python
>>> 200009354607 & 0xFFFFFFFF
2440858991
>>> (200009354607 & 0xFFFF00000000) >> 32
46

Váš disk tedy provedl 2440858991 hledání, z nichž 46 se nezdařilo. Moje zkušenost s disky Seagate je, že mají tendenci selhat, když počet chyb překročí 1000. YMMV.

Řešení 2:

RAW_VALUES "hledání chybovosti" a "nezpracovaná četnost chyb při čtení" jsou prakticky bezvýznamné pro nikoho kromě podpory společnosti Seagate. Jak poukázali jiní, nezpracované hodnoty parametrů, jako je „počet přerozdělených sektorů“ nebo záznamy v protokolu chyb disku, pravděpodobněji naznačují vyšší pravděpodobnost selhání.

Ale můžete se podívat na interpretovaná data ve sloupcích VALUE, WORST a THRESH, které mají být čteny jako měřidla:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH
  7 Seek_Error_Rate         0x000f   077   060   030

To znamená, že vaše míra chyb hledání je aktuálně považována za „77 % dobrých“ a SMART ji nahlásí jako problém, když dosáhne „30 % dobrých“. Kdysi to bylo tak nízké jako "60% dobré", ale od té doby se magicky zotavilo. Všimněte si, že interpretované hodnoty jsou vypočítány interně logikou SMART disku a přesný výpočet může, ale nemusí být zveřejněn výrobcem a obvykle jej uživatel nemůže upravit.

Osobně považuji disk obsahující záznamy chybového protokolu za „selhávající“ a naléhavě žádám o výměnu, jakmile k nim dojde. Celkově se však údaje SMART ukázaly jako poměrně slabý indikátor pro předpověď selhání, jak odhalil výzkum publikovaný společností Google.

Řešení 3:

Podle mých zkušeností mají Seagates podivná čísla pro tyto dva atributy SMART. Při diagnostice Seagate mám tendenci je ignorovat a blíže se podívám na jiná pole, jako je počet realokovaných sektorů. Samozřejmě, když máte pochybnosti, vyměňte disk, ale i zcela nové Seagates budou mít vysoké hodnoty pro tyto atributy.

Řešení 4:

Uvědomil jsem si, že tato diskuse je trochu stará, ale chci přidat své 2 centy. Zjistil jsem, že chytré informace jsou docela dobrým indikátorem před selháním. Když dojde k aktivaci inteligentního prahu, vyměňte jednotku. K tomu slouží tyto prahové hodnoty.

V drtivé většině času začnou vidět vadné sektory. To je jasné znamení, že disk začíná selhávat. SMART mě mnohokrát zachránil. Používám softwarový RAID 1 a je velmi užitečný, protože jednoduše vyměníte vadný disk a znovu sestavíte pole.

Týdně také provádím krátký a dlouhý autotest.

smartctl -t short /dev/sda
smartctl -t long /dev/sda 

Nebo jej přidejte do /etc/smartd.conf a nechte si jej zaslat e-mailem, pokud se vyskytnou chyby

/dev/sda -s L/../../3/22 -I 194 -m [email protected]
/dev/sdb -s L/../../7/22 -I 194 -m [email protected]

Nezapomeňte nainstalovat logwatch a přesměrovat root na e-mailovou adresu a kontrolovat denní e-maily z logwatch. Objeví se tam vypnuté příznaky SMARTD, ale není to k ničemu, pokud to nikdo pravidelně nemonitoruje.

Řešení 5:

Omlouvám se, že jsem se v tomto příspěvku dopustil nekromancie, ale podle mých zkušeností budou pole „Raw Read Error Rate“ a „Hardware ECC Recovered“ pro disk Seagate doslova všude a neustále se zvyšují do bilionového rozsahu, kdy se vrátí zpět na nulu, aby proces znovu pokračoval. Mám Seagate ST9750420AS, který má tento problém od prvního dne a stále funguje skvěle i po několika letech a více než 3500 hodinách používání.

Myslím, že tato pole lze bezpečně ignorovat, pokud je ve vašem případě spouštíte. Jen se ujistěte, že obě pole hlásí stejné číslo a jsou neustále synchronizované. Pokud nejsou...no... Ve skutečnosti to může znamenat problém.


Linux
  1. Proč jsou data důležitá a jak je chránit

  2. Jak interpretovat zachycené informace Wireshark

  3. Jak opravit chybu editoru Vi / Vim — E319:Omlouváme se, ale příkaz není v této verzi dostupný

  1. Jak opravit chybu instalace Ruby:EC_GROUP_new_curve_GF2m nedeklarováno (první použití v této funkci)?

  2. Jak zabránit kybernetickému útoku

  3. Jak rm funguje? Co dělá rm?

  1. Takto funguje linuxový server

  2. Jak zrychlit tento sed skript?

  3. jak je select() upozorněno na to, že se fd připravuje?