Tento návod popisuje, jak vyměnit vadný disk na softwarovém RAID spravovaném mdadm
užitečnost. Výměna vadného disku RAID 6 v mdadm
:
- Identifikujte problém.
- Získejte podrobnosti z pole RAID.
- Vyjměte vadný disk z pole RAID.
- Vypněte počítač a vyměňte disk.
- Rozdělte nový disk.
- Přidejte nový disk do pole RAID.
- Ověřte obnovení.
Podívejme se na tento proces podrobněji na příkladu.
Identifikujte problém
Chcete-li zjistit, který disk v poli RAID selhává, spusťte:
[root@server loc]# cat /proc/mdadm
Nebo:
[root@server loc]# mdadm -–query -–detail /dev/md2
Vadný disk se zobrazí jako selhání nebo odstraněno . Například:
[root@server loc]# mdadm -–query -–detail /dev/md2
/dev/md2:
Version : 1.2
Creation Time : Mon Jun 22 08:47:09 2015
Raid Level : raid6
Array Size : 5819252736 (5549.67 GiB 5958.91 GB)
Used Dev Size : 2909626368 (2774.84 GiB 2979.46 GB)
Raid Devices : 4
Total Devices : 4
Persistence : Superblock is persistent
Intent Bitmap : Internal
Update Time : Mon Oct 15 11:55:06 2018
State : clean, degraded, recovering
Active Devices : 3
Working Devices : 4
Failed Devices : 0
Spare Devices : 1
Layout : left-symmetric
Chunk Size : 512K
Consistency Policy : bitmap
Rebuild Status : 3% complete
Name : localhost.localdomain:2
UUID : 54404ab5:4450e4f3:aba6c1fb:93a4087e
Events : 1046292
Number Major Minor Raid Device State
0 0 0 0 removed
1 8 36 1 active sync /dev/sdc4
2 8 52 2 active sync /dev/sdd4
3 8 68 3 active sync /dev/sde4
Získejte podrobnosti z pole RAID
Chcete-li zkontrolovat stav pole RAID a identifikovat stav disku v poli RAID:
[root@server loc]# cat /proc/mdstat
Personalities : [raid6] [raid5] [raid4]
md2 : active raid6 sdb4[4](F) sdd4[2] sdc4[1] sde4[3]
5819252736 blocks super 1.2 level 6, 512k chunk, algorithm 2 [4/3] [_UUU]
[>………………..] recovery = 3.4% (100650992/2909626368) finish=471.5min speed=99278K/sec
bitmap: 2/22 pages [8KB], 65536KB chunk
unused devices: <none>
Jak vidíme, zařízení /dev/sdb4
selhal v RAID.
Protože jsme zjistili, že selhal disk je /dev/sdb4
(což byl případ tohoto serveru), museli bychom získat sériové číslo disku pomocí smartctl
:
[root@server loc]# smartctl -–all /dev/sdb | grep -i 'Serial'
Výše uvedený příkaz je důležitý, protože potřebujete vědět, jaký disk odebrat ze serveru, podle fyzického štítku disku.
Odeberte vadný disk z pole RAID
Je důležité odstranit vadný disk z pole, aby si pole zachovalo konzistentní stav a bylo si vědomo každé změny, například:
[root@server loc]# mdadm -–manage /dev/md2 -–remove /dev/sdb4
Po úspěšném odstranění se vrátí zpráva podobná této:
[root@server loc]# mdadm: hot removed /dev/sdb4 from /dev/md2
Zkontrolujte stav /proc/mdstat
ještě jednou:
[root@server loc]# cat /proc/mdstat
Můžete vidět, že /dev/sdb4
již není vidět.
Vypněte počítač a vyměňte disk
Nyní je čas vypnout systém a vyměnit vadný disk za nový, ale před vypnutím systému napište komentář /dev/md2
z vašeho /etc/fstab
soubor. Viz příklad níže:
[root@server loc]# cat /etc/fstab
#
# /etc/fstab
# Created by anaconda on Fri May 20 13:12:25 2016
#
# Accessible filesystems, by reference, are maintained under ‘/dev/disk’
# See man pages fstab(5), findfs(8), mount(8) and/or blkid(8) for more info
#
/dev/mapper/centos-root / xfs defaults 0 0
UUID=1300b86d-2638-4a9f-b366-c5e67e9ffa4e /boot xfs defaults 0 0
#/dev/mapper/centos-home /home xfs defaults 0 0
/dev/mapper/centos-swap swap swap defaults 0 0
#/dev/md2 /var/loc xfs defaults 0 0
Rozdělte nový disk na oddíly
Vzhledem k tomu, že v poli RAID máme další pracovní disky, je snadné a pohodlné zkopírovat schéma rozdělení pracovního disku na nový disk. Tento úkol se provádí pomocí sgdisk
nástroj, který poskytuje gdisk
balík.
Nainstalujte gdisk
takto (upravte tento příkaz pro vaši distribuci):
[root@server loc]# yum install gdisk
Pomocí gdisk
, nejprve předáme -R
možnost (znamená Replicate). Ujistěte se, že replikujete schéma oddílů funkčního disku. Je důležité, abyste použili správné pořadí disků pro replikaci schématu oddílu z funkčního disku na nový. V naší situaci je na novém disku /dev/sdb
a pracovní disky jsou /dev/sdc
, /dev/sdd
, /dev/sde
.
Nyní, abyste replikovali schéma oddílů pracovního disku (řekněme /dev/sdc
) na nový disk /dev/sdb
, je vyžadován následující příkaz:
[root@server loc]# sgdisk -R /dev/sdb /dev/sdc
Abychom zabránili konfliktům GUID s jinými disky, budeme muset náhodně uspořádat GUID nového disku pomocí:
[root@server loc]# sgdisk -G /dev/sdb
The operation has completed successfully.
Dále ověřte výstup /dev/sdb pomocí parted
nástroj:
[root@server loc]# parted /dev/sdb print
Přidejte nový disk do pole RAID
Po dokončení replikace schématu oddílu na nový disk nyní můžeme přidat disk do pole RAID:
[root@server loc]# mdadm -–manage /dev/md2 -–add /dev/sdb4
mdadm: added /dev/sdb4
Ověřte obnovení
Chcete-li ověřit obnovení pole RAID, použijte následující:
[root@server loc]# cat /proc/mdstat
Personalities : [raid6] [raid5] [raid4]
md2 : active raid6 sdb4[4] sdd4[2] sdc4[1] sde4[3]
5819252736 blocks super 1.2 level 6, 512k chunk, algorithm 2 [4/3] [_UUU]
[==>………………] recovery = 12.2% (357590568/2909626368) finish=424.1min speed=100283K/sec
bitmap: 0/22 pages [0KB], 65536KB chunk
unused devices: <none>
Nebo:
[root@server loc]# mdadm -–query -–detail /dev/md2
/dev/md2:
Version : 1.2
Creation Time : Mon Jun 22 08:47:09 2015
Raid Level : raid6
Array Size : 5819252736 (5549.67 GiB 5958.91 GB)
Used Dev Size : 2909626368 (2774.84 GiB 2979.46 GB)
Raid Devices : 4
Total Devices : 4
Persistence : Superblock is persistent
Intent Bitmap : Internal
Update Time : Mon Oct 15 12:37:37 2018
State : clean, degraded, recovering
Active Devices : 3
Working Devices : 4
Failed Devices : 0
Spare Devices : 1
Layout : left-symmetric
Chunk Size : 512K
Consistency Policy : bitmap
Rebuild Status : 12% complete
Name : localhost.localdomain:2
UUID : 54404ab5:4450e4f3:aba6c1fb:93a4087e
Events : 1046749
Number Major Minor Raid Device State
4 8 20 0 spare rebuilding /dev/sdb4
1 8 36 1 active sync /dev/sdc4
2 8 52 2 active sync /dev/sdd4
3 8 68 3 active sync /dev/sde4
Z výše uvedeného výstupu nyní vidíme, že /dev/sdb4
se přestavuje a k dispozici jsou čtyři funkční a aktivní zařízení. Proces obnovy může chvíli trvat v závislosti na celkové velikosti disku a typu disku (tj. tradiční nebo polovodičový).
Oslavte
Nyní jste úspěšně nahradili vadný disk RAID 6 za mdadm
. Doufejme, že to nikdy nebudete muset udělat, ale hardware selže. Je pravděpodobné, že pokud používáte RAID 6, nakonec k tomu dojde. Pokud můžete, nastavte laboratoř, vynuťte selhání RAID 6 a poté jej obnovte. Vědět, jak problém řešit, učiní zkušenost, kdy se stane nemyslitelné, mnohem méně stresující.