Řešení 1:
Pravděpodobně nejlepším řešením je hardwarový problém někde mezi vašimi disky a řadičem raid sas včetně. Doporučuji vyzkoušet:
- Spusťte jakékoli diagnostické nástroje od dodavatelů, pokud jsou k dispozici
- Zkontrolujte/znovu usaďte/vyměňte kabely
- odstraňte hardwarové komponenty a vyměňte hardware v řetězci, který připojuje disky k vašemu řadiči raid, včetně samotného řadiče (tj. zkuste něco jiného než integrovaný raid na základní desce).
Měl jsem jeden ze dvou identických Dell PowerEdge R515, který poskytoval velmi podobné zprávy (protokoly se pravidelně plní zprávami mpt2sas0, i když nemám přesné číselné kódy). Vlastní spouštěcí diagnostika společnosti Dell je zachytila jako „chyby hardwaru“ a výměna základní desky RAID sas problém vyřešila.
Když jsem zkoumal, nemohl jsem najít komplexní zdroj toho, co znamenají různé chybové kódy mpt2sas0. Mám podezření, že mohou být dokonce specifické pro dodavatele hardwaru (někdo, kdo ví více o SAS, to musí potvrdit nebo vyvrátit). Vaše chybové kódy tedy mohou znamenat něco zcela odlišného, ale pokud je SMART čistý, je těžké si představit jiné dobré důvody, aby mpt2sas0 hlásil chybové kódy.
Tyto chyby mohou být velmi závažné. Můj R515 s těmito zprávami fungoval zdánlivě dobře po dobu jednoho týdne s 12diskovým softwarovým raid 6 Ubuntu Linux, ale pak najednou všech 12 disků vysunul z pole jako poškozený (!)
Také v mém případě byly SMART pro všechny disky zcela čisté. Dobrou kontrolou je inteligentní autodiagnostický test:smartctl -t long /dev/sdX
a poté zkontrolujte výsledky asi o den později pomocí smartctl -l selftest /dev/sdX
. Pokud je vše v pořádku, test by měl říct Completed
a LBA_first_err
sloupec by měl být prázdný.
Řešení 2:
Páni, to je těžké.
Zdá se, že to naznačuje, že 0x31120303 je reset sběrnice kvůli velkému zatížení jednoho z vašich zařízení. Také říká, že se o to nemusíte starat. (Haha, ano správně.)
To znamená, že tyto zprávy protokolu se odehrávají, protože jednomu z vašich zařízení trvá příliš dlouho, než odpovídá na příkazy. To říká totéž a také naznačuje, že k tomu dochází při velkém zatížení.
I když toto není úplná odpověď, doufejme, že vás nasměruje užitečným směrem.