GNU/Linux >> Znalost Linux >  >> Linux

Dešifrování pokračujících zpráv syslog mpt2sas

Řešení 1:

Pravděpodobně nejlepším řešením je hardwarový problém někde mezi vašimi disky a řadičem raid sas včetně. Doporučuji vyzkoušet:

  1. Spusťte jakékoli diagnostické nástroje od dodavatelů, pokud jsou k dispozici
  2. Zkontrolujte/znovu usaďte/vyměňte kabely
  3. odstraňte hardwarové komponenty a vyměňte hardware v řetězci, který připojuje disky k vašemu řadiči raid, včetně samotného řadiče (tj. zkuste něco jiného než integrovaný raid na základní desce).

Měl jsem jeden ze dvou identických Dell PowerEdge R515, který poskytoval velmi podobné zprávy (protokoly se pravidelně plní zprávami mpt2sas0, i když nemám přesné číselné kódy). Vlastní spouštěcí diagnostika společnosti Dell je zachytila ​​jako „chyby hardwaru“ a výměna základní desky RAID sas problém vyřešila.

Když jsem zkoumal, nemohl jsem najít komplexní zdroj toho, co znamenají různé chybové kódy mpt2sas0. Mám podezření, že mohou být dokonce specifické pro dodavatele hardwaru (někdo, kdo ví více o SAS, to musí potvrdit nebo vyvrátit). Vaše chybové kódy tedy mohou znamenat něco zcela odlišného, ​​ale pokud je SMART čistý, je těžké si představit jiné dobré důvody, aby mpt2sas0 hlásil chybové kódy.

Tyto chyby mohou být velmi závažné. Můj R515 s těmito zprávami fungoval zdánlivě dobře po dobu jednoho týdne s 12diskovým softwarovým raid 6 Ubuntu Linux, ale pak najednou všech 12 disků vysunul z pole jako poškozený (!)

Také v mém případě byly SMART pro všechny disky zcela čisté. Dobrou kontrolou je inteligentní autodiagnostický test:smartctl -t long /dev/sdX a poté zkontrolujte výsledky asi o den později pomocí smartctl -l selftest /dev/sdX . Pokud je vše v pořádku, test by měl říct Completed a LBA_first_err sloupec by měl být prázdný.

Řešení 2:

Páni, to je těžké.

Zdá se, že to naznačuje, že 0x31120303 je reset sběrnice kvůli velkému zatížení jednoho z vašich zařízení. Také říká, že se o to nemusíte starat. (Haha, ano správně.)

To znamená, že tyto zprávy protokolu se odehrávají, protože jednomu z vašich zařízení trvá příliš dlouho, než odpovídá na příkazy. To říká totéž a také naznačuje, že k tomu dochází při velkém zatížení.

I když toto není úplná odpověď, doufejme, že vás nasměruje užitečným směrem.


Linux
  1. Linux – rozumíte přihlašování v Linuxu?

  2. Informace o pevném disku za hardwarovým řadičem Raid?

  3. Zprávy „upowerd[4116]:Neošetřená akce ‚svázat‘“ Zaplňují se syslog?

  1. Jaká je hardwarová specifikace vašeho hlavního serverového uzlu?

  2. Pochopení akcí rsyslog

  3. Chybové zprávy „Abort command added nexus“ v souboru /var/log/messages

  1. Po hardwarovém rozšíření pole RAID mi fdisk neumožní používat další dostupné sektory

  2. Jak najít chybové zprávy ze skriptů Linux init.d/rc.d?

  3. Jak číst zprávy syslog oom-killer?