Portál AbcLinuxu, 10. května 2025 13:21

Dotaz: problem sestavit rozpadlý RAID 10

9.7.2012 16:02 Qéčko
problem sestavit rozpadlý RAID 10
Přečteno: 1014×
Odpovědět | Admin
Ahoj všichni, po návratu z dovolené na mě čekal backup server v havarijním stavu. Umrtvila se mi pásková knihovna. Nu což, odpojil jsem ji a odebral řadič. Po opětovném startu však ale jedno pole s daty backupu nejde sestavit a boot končí kernel panic. Po nabootování rescue módu Centos 6 a připojení nalezeného systému jsou připojeny následující pole:
md1 : active raid1 sdf1[2] sde1[1]
      5118968 blocks super 1.1 [2/2] [UU]
    
md0 : active raid1 sdf2[0] sde2[1]
      2047988 blocks super 1.0 [2/2] [UU]
      bitmap: 0/1 pages [0KB], 65536KB chunk

md2 : active raid1 sdf3[0] sde3[1]
      237028220 blocks super 1.1 [2/2] [UU]
      bitmap: 0/2 pages [0KB], 65536KB chunk
kde pole md0 je /boot, md1 je pro swap a md2 je pro /.

To vše je dosud v pořádku.

Na stroji bylo ještě čtvrté pole (4 disky, RAID10), ale nevím jaké mělo označení a bylo připojené do /backup.

Toto pole bylo složeno z partitions: sda1, sdb1, sdc1, sdd1 a nyní nejde sestavit. Buhužel si napamatuji, jaké označeni pole mělo. Ale pokud se na partišny podívám přes mdadm, pak dostanu např. pro SDA1 partišnu výpis:

[root@localhost ~]# mdadm --examine /dev/sda1
/dev/sda1:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x0
     Array UUID : fe53973a:4b3abb79:fdb6ad1a:bea0fe63
           Name : backup-server:3
  Creation Time : Tue Mar  6 09:20:54 2012
     Raid Level : raid10
   Raid Devices : 4

 Avail Dev Size : 3900676279 (1859.99 GiB 1997.15 GB)
     Array Size : 7801350144 (3719.97 GiB 3994.29 GB)
  Used Dev Size : 3900675072 (1859.99 GiB 1997.15 GB)
    Data Offset : 2048 sectors
   Super Offset : 8 sectors
          State : clean
    Device UUID : 300b24de:fad08804:25fc142b:076a2c70

    Update Time : Mon Jul  9 12:23:52 2012
       Checksum : debde30 - correct
         Events : 340849

         Layout : near=2
     Chunk Size : 512K

   Device Role : Active device 3
   Array State : ..AA ('A' == active, '.' == missing)

Analogicky mi to vypíše i pro ostatní partišny.

Zkoušel jsem připojení pole přes assemble ale nic.

Nevíte někdo jak z této situace ven?

Moc dík za reakci.

Ruda

Řešení dotazu:


Nástroje: Začni sledovat (1) ?Zašle upozornění na váš email při vložení nového komentáře.

Odpovědi

9.7.2012 17:35 Milan Roubal | skóre: 25
Rozbalit Rozbalit vše Re: problem sestavit rozpadlý RAID 10
Odpovědět | | Sbalit | Link | Blokovat | Admin
pokud system funguje, podivej se do /var/log/messages, pripadne jiz do odrotovanych casti, co se delo s tim RAID10 polem a jake chyby to zahlasilo nez to vyhodilo 2 disky z toho pole. Relevantni casti sem pak vloz.
10.7.2012 07:09 Qéčko
Rozbalit Rozbalit vše Re: problem sestavit rozpadlý RAID 10
Pole mělo označení md127.

Zde je výpis z logů serveru:
Jul  7 07:48:56 backup-server kernel: sd 5:0:2:0: [sde] Unhandled sense code
Jul  7 07:48:56 backup-server kernel: sd 5:0:2:0: [sde] Result: hostbyte=invalid driverbyte=DRIVER_SENSE
Jul  7 07:48:56 backup-server kernel: sd 5:0:2:0: [sde] Sense Key : Medium Error [current] 
Jul  7 07:48:56 backup-server kernel: Info fld=0xb2f99d90
Jul  7 07:48:56 backup-server kernel: sd 5:0:2:0: [sde] Add. Sense: Unrecovered read error
Jul  7 07:48:56 backup-server kernel: sd 5:0:2:0: [sde] CDB: Read(10): 28 00 b2 f9 9c 3f 00 04 00 00
Jul  7 07:48:56 backup-server kernel: end_request: critical target error, dev sde, sector 3002702911
Jul  7 07:48:56 backup-server kernel: md/raid10:md127: sde1: rescheduling sector 6005401600
Jul  7 07:48:56 backup-server kernel: md/raid10:md127: sde1: rescheduling sector 6005401848
Jul  7 07:48:56 backup-server kernel: md/raid10:md127: sde1: rescheduling sector 6005402096
Jul  7 07:48:56 backup-server kernel: md/raid10:md127: sde1: rescheduling sector 6005402344
Jul  7 07:48:56 backup-server kernel: md/raid10:md127: sde1: rescheduling sector 6005402592
Jul  7 07:48:56 backup-server kernel: md/raid10:md127: sde1: redirecting sector 6005401600 to another mirror
Jul  7 07:49:03 backup-server kernel: sd 5:0:2:0: [sde] Unhandled sense code
Jul  7 07:49:03 backup-server kernel: sd 5:0:2:0: [sde] Result: hostbyte=invalid driverbyte=DRIVER_SENSE
Jul  7 07:49:03 backup-server kernel: sd 5:0:2:0: [sde] Sense Key : Medium Error [current] 
Jul  7 07:49:03 backup-server kernel: Info fld=0xb2f99d90
Jul  7 07:49:03 backup-server kernel: sd 5:0:2:0: [sde] Add. Sense: Unrecovered read error
Jul  7 07:49:03 backup-server kernel: sd 5:0:2:0: [sde] CDB: Read(10): 28 00 b2 f9 9d 8f 00 00 08 00
Jul  7 07:49:03 backup-server kernel: end_request: critical target error, dev sde, sector 3002703247
Jul  7 07:49:03 backup-server kernel: md/raid10:md127: Disk failure on sde1, disabling device.
Jul  7 07:49:03 backup-server kernel: md/raid10:md127: Operation continuing on 2 devices.
Jul  7 07:49:03 backup-server kernel: md/raid10:md127: sde: unrecoverable I/O read error for block 6005401848
Jul  7 07:49:03 backup-server kernel: md/raid10:md127: sde: unrecoverable I/O read error for block 6005402096
Jul  7 07:49:03 backup-server kernel: md/raid10:md127: sde: unrecoverable I/O read error for block 6005402344
Jul  7 07:49:03 backup-server kernel: md/raid10:md127: sde: unrecoverable I/O read error for block 6005402592
Jul  7 07:49:03 backup-server kernel: Buffer I/O error on device md127, logical block 831657479
Jul  7 07:49:03 backup-server kernel: lost page write due to I/O error on md127
Jul  7 07:49:03 backup-server kernel: Buffer I/O error on device md127, logical block 831657480
Jul  7 07:49:03 backup-server kernel: lost page write due to I/O error on md127
Jul  7 07:49:03 backup-server kernel: Buffer I/O error on device md127, logical block 831657481
Jul  7 07:49:03 backup-server kernel: lost page write due to I/O error on md127
Jul  7 07:49:03 backup-server kernel: Buffer I/O error on device md127, logical block 831657482
Jul  7 07:49:03 backup-server kernel: lost page write due to I/O error on md127
Jul  7 07:49:03 backup-server kernel: Buffer I/O error on device md127, logical block 831657483
Jul  7 07:49:03 backup-server kernel: lost page write due to I/O error on md127
Jul  7 07:49:03 backup-server kernel: Buffer I/O error on device md127, logical block 831657484
Jul  7 07:49:03 backup-server kernel: lost page write due to I/O error on md127
Jul  7 07:49:03 backup-server kernel: Buffer I/O error on device md127, logical block 831657485
Jul  7 07:49:03 backup-server kernel: lost page write due to I/O error on md127
Jul  7 07:49:03 backup-server kernel: Buffer I/O error on device md127, logical block 831657486
Jul  7 07:49:03 backup-server kernel: lost page write due to I/O error on md127
Jul  7 07:49:03 backup-server kernel: Buffer I/O error on device md127, logical block 831657487
Jul  7 07:49:03 backup-server kernel: lost page write due to I/O error on md127
Jul  7 07:49:03 backup-server kernel: Buffer I/O error on device md127, logical block 831657488
Jul  7 07:49:03 backup-server kernel: lost page write due to I/O error on md127
Jul  7 07:49:03 backup-server kernel: JBD2: I/O error detected when updating journal superblock for md127-8.
Jul  7 07:49:03 backup-server kernel: JBD2: Detected IO errors while flushing file data on md127-8
Jul  7 07:49:03 backup-server kernel: EXT4-fs error (device md127): ext4_read_inode_bitmap: Cannot read inode bitmap - block_group = 3281, inode_bitmap = 107479057
Jul  7 07:49:03 backup-server kernel: EXT4-fs error (device md127) in ext4_new_inode: IO failure
Jul  7 07:49:03 backup-server kernel: EXT4-fs (md127): previous I/O error to superblock detected
Jul  7 07:49:08 backup-server kernel: __ratelimit: 8379 callbacks suppressed
Jul  7 07:49:08 backup-server kernel: Buffer I/O error on device md127, logical block 831643250
Jul  7 07:49:08 backup-server kernel: lost page write due to I/O error on md127
Jul  7 07:49:08 backup-server kernel: JBD2: Detected IO errors while flushing file data on md127-8
Jul  7 07:49:08 backup-server kernel: Aborting journal on device md127-8.
Jul  7 07:49:08 backup-server kernel: Buffer I/O error on device md127, logical block 487096320
Jul  7 07:49:08 backup-server kernel: lost page write due to I/O error on md127
Jul  7 07:49:08 backup-server kernel: EXT4-fs error (device md127) in ext4_da_writepages: IO failure
Jul  7 07:49:08 backup-server kernel: JBD2: I/O error detected when updating journal superblock for md127-8.
Jul  7 07:49:08 backup-server kernel: EXT4-fs (md127): previous I/O error to superblock detected
Jul  7 07:49:08 backup-server kernel: Buffer I/O error on device md127, logical block 0
Jul  7 07:49:08 backup-server kernel: lost page write due to I/O error on md127
Jul  7 07:49:08 backup-server kernel: EXT4-fs error (device md127): ext4_journal_start_sb: Detected aborted journal
Jul  7 07:49:08 backup-server kernel: EXT4-fs (md127): Remounting filesystem read-only
Jul  7 07:49:08 backup-server kernel: EXT4-fs (md127): ext4_da_writepages: jbd2_start: 1023 pages, ino 207882871; err -30
Jul  7 07:49:08 backup-server kernel:
Jul  7 07:49:08 backup-server kernel: Buffer I/O error on device md127, logical block 750256135
Jul  7 07:49:08 backup-server kernel: lost page write due to I/O error on md127
Jul  7 07:49:08 backup-server kernel: Buffer I/O error on device md127, logical block 750256136
Jul  7 07:49:08 backup-server kernel: lost page write due to I/O error on md127
Jul  7 07:49:08 backup-server kernel: Buffer I/O error on device md127, logical block 750256140
Jul  7 07:49:08 backup-server kernel: lost page write due to I/O error on md127
Jul  7 07:49:08 backup-server kernel: Buffer I/O error on device md127, logical block 817364999
Jul  7 07:49:08 backup-server kernel: lost page write due to I/O error on md127
Jul  7 07:49:08 backup-server kernel: Buffer I/O error on device md127, logical block 817365000
Jul  7 07:49:08 backup-server kernel: lost page write due to I/O error on md127
Jul  7 07:49:08 backup-server kernel: Buffer I/O error on device md127, logical block 817365009
Jul  7 07:49:08 backup-server kernel: lost page write due to I/O error on md127
Jul  7 07:49:08 backup-server kernel: Buffer I/O error on device md127, logical block 817365547
Jul  7 07:49:08 backup-server kernel: lost page write due to I/O error on md127

Jul  9 12:21:35 backup-server kernel: EXT4-fs error (device md127): ext4_find_entry: reading directory #2 offset 0
Jul  9 12:21:35 backup-server kernel: EXT4-fs error (device md127): ext4_find_entry: reading directory #2 offset 0
Jul  9 12:21:35 backup-server kernel: EXT4-fs error (device md127): ext4_find_entry: reading directory #2 offset 0
Jul  9 12:21:35 backup-server kernel: EXT4-fs error (device md127): ext4_find_entry: reading directory #2 offset 0
Jul  9 12:21:35 backup-server kernel: EXT4-fs error (device md127): ext4_find_entry: reading directory #2 offset 0
Po kontrole jsem jsem zjistil, že u jednoho z disků byl prasklý SATA datový kabel, vyměnil jsem ho. Disk se hlásí. Všechny disky pole jsou cca 3 měsíce staré. Předpokládám, že jsou v pořádku.

Dík za pomoc, pokud nějaká v ještě existuje.

Ruda
10.7.2012 09:26 Milan Roubal | skóre: 25
Rozbalit Rozbalit vše Re: problem sestavit rozpadlý RAID 10
Jul  7 07:49:03 backup-server kernel: md/raid10:md127: Disk failure on sde1, disabling device.
Jul  7 07:49:03 backup-server kernel: md/raid10:md127: Operation continuing on 2 devices.
podle tohoto vypisu to vypada, ze sde1 vypadl z pole jako druhy. Jeste je potreba zjistit, ktery disk vypadl jako prvni, protoze ten bude obsahovat nekonzistentni data. Pak uz staci jen z toho sde1 a tech 2 zbyvajicich disku to pole zpet slozit. Stejna informace, tedy ktery disk vypadl prvni a bez ktereho to pole slozit zpet, by mela jit zjistit i z
mdadm --examine
podle pocitadla events.
10.7.2012 11:15 Qéčko
Rozbalit Rozbalit vše Re: problem sestavit rozpadlý RAID 10
Hmm hledal jsem, ale nic v logu o výpadku jiného disku neni. Asi se to stalo dříve a uniklo mi to. Nevím.

Zde jsou examine na partišny:
[root@localhost log]# mdadm --examine /dev/sda1
/dev/sda1:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x0
     Array UUID : fe53973a:4b3abb79:fdb6ad1a:bea0fe63
           Name : backup-server:3
  Creation Time : Tue Mar  6 09:20:54 2012
     Raid Level : raid10
   Raid Devices : 4

 Avail Dev Size : 3900676279 (1859.99 GiB 1997.15 GB)
     Array Size : 7801350144 (3719.97 GiB 3994.29 GB)
  Used Dev Size : 3900675072 (1859.99 GiB 1997.15 GB)
    Data Offset : 2048 sectors
   Super Offset : 8 sectors
          State : clean
    Device UUID : 300b24de:fad08804:25fc142b:076a2c70

    Update Time : Mon Jul  9 12:23:52 2012
       Checksum : debde30 - correct
         Events : 340849

         Layout : near=2
     Chunk Size : 512K

   Device Role : Active device 3
   Array State : ..AA ('A' == active, '.' == missing)
mdadm --examine /dev/sdb1
/dev/sdb1:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x0
     Array UUID : fe53973a:4b3abb79:fdb6ad1a:bea0fe63
           Name : backup-server:3
  Creation Time : Tue Mar  6 09:20:54 2012
     Raid Level : raid10
   Raid Devices : 4

 Avail Dev Size : 3900676279 (1859.99 GiB 1997.15 GB)
     Array Size : 7801350144 (3719.97 GiB 3994.29 GB)
  Used Dev Size : 3900675072 (1859.99 GiB 1997.15 GB)
    Data Offset : 2048 sectors
   Super Offset : 8 sectors
          State : clean
    Device UUID : 7c1f7935:f952d882:92efc8b0:dc8653ed

    Update Time : Mon Jul  9 12:23:52 2012
       Checksum : e66b84be - correct
         Events : 340849

         Layout : near=2
     Chunk Size : 512K

   Device Role : Active device 2
   Array State : ..AA ('A' == active, '.' == missing)
mdadm --examine /dev/sdc1
/dev/sdc1:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x0
     Array UUID : fe53973a:4b3abb79:fdb6ad1a:bea0fe63
           Name : backup-server:3
  Creation Time : Tue Mar  6 09:20:54 2012
     Raid Level : raid10
   Raid Devices : 4

 Avail Dev Size : 3900676279 (1859.99 GiB 1997.15 GB)
     Array Size : 7801350144 (3719.97 GiB 3994.29 GB)
  Used Dev Size : 3900675072 (1859.99 GiB 1997.15 GB)
    Data Offset : 2048 sectors
   Super Offset : 8 sectors
          State : clean
    Device UUID : 1a8cfd16:6d4673eb:20e4dc18:3db84c0c

    Update Time : Thu Mar 22 09:36:00 2012
       Checksum : b7052dfa - correct
         Events : 9080

         Layout : near=2
     Chunk Size : 512K

   Device Role : Active device 0
   Array State : AAAA ('A' == active, '.' == missing)
mdadm --examine /dev/sdd1
/dev/sdd1:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x0
     Array UUID : fe53973a:4b3abb79:fdb6ad1a:bea0fe63
           Name : backup-server:3
  Creation Time : Tue Mar  6 09:20:54 2012
     Raid Level : raid10
   Raid Devices : 4

 Avail Dev Size : 3900676279 (1859.99 GiB 1997.15 GB)
     Array Size : 7801350144 (3719.97 GiB 3994.29 GB)
  Used Dev Size : 3900675072 (1859.99 GiB 1997.15 GB)
    Data Offset : 2048 sectors
   Super Offset : 8 sectors
          State : active
    Device UUID : 4e5cc770:39382d21:055cd22f:d6874121

    Update Time : Sat Jul  7 07:48:52 2012
       Checksum : 730630ba - correct
         Events : 340839

         Layout : near=2
     Chunk Size : 512K

   Device Role : Active device 1
   Array State : .AAA ('A' == active, '.' == missing)

Zde je výpis mdadm.conf (ale nevím jsetli ho boot do resue módu nemodifikoval:
# mdadm.conf written out by anaconda
MAILADDR root
AUTO +imsm +1.x -all
ARRAY /dev/md0 level=raid1 num-devices=2 UUID=833510aa:e7d6aa85:66d20c0d:6dc4b320
ARRAY /dev/md1 level=raid1 num-devices=2 UUID=cf493f3c:bb5e3d4b:682a3004:97749435
ARRAY /dev/md2 level=raid1 num-devices=2 UUID=69b857c5:98cea294:946a8d9a:5d75cfd6
Ruda
10.7.2012 13:24 Milan Roubal | skóre: 25
Rozbalit Rozbalit vše Re: problem sestavit rozpadlý RAID 10
Takze z tohoto vypisu jsou zajimave tyto udaje:
Update Time : Thu Mar 22 09:36:00 2012
       Checksum : b7052dfa - correct
         Events : 9080
Tedy disk sdc z toho pole vypadl uz 22. brezna :), to se ani nedivim, ze se neda jiz nic dohledat v logu.

Trochu zarazejici je, ze log mluvi o disku sde v poli md127, ktere by se melo sestavat pouze z sd[abcd].

Doporucuji tedy fyzicky odpojit disk sdc, aby se do toho nezapletl a pote se pokusit to pole spustit.
mdadm –assemble -v –scan –force –run –uuid=4e5cc770:39382d21:055cd22f:d6874121
10.7.2012 13:32 Qéčko
Rozbalit Rozbalit vše Re: problem sestavit rozpadlý RAID 10
No ono se to po nabootování přes rescue přepísmenkovalo. Skutečně v realném systému bylo:

SDA, SDB pro /boot, swap a /

SD[CDEF] pro md 127 - /backup - které teď nejede.

Pokud bootnu rescue z DVD tak se to přeháže na

SD[ABCD] pro md127, které nejede

SD[EF] pro /boot, swap a /

takze ted nevím který disk odpojit.

poradíte?

Děkuji Ruda
10.7.2012 13:44 Milan Roubal | skóre: 25
Rozbalit Rozbalit vše Re: problem sestavit rozpadlý RAID 10
Pokud bootnu rescue z DVD tak se to přeháže na

SD[ABCD] pro md127, které nejede

SD[EF] pro /boot, swap a /
tedy po nabootovani z DVD, kde bylo u disku sdc
Events : 9080
tak spustit
smartctl -a /dev/sdc
kde ve vypisu bude uvedene seriove cislo disku, ktery je dobre odpojit.
Serial Number:
10.7.2012 14:33 Qéčko
Rozbalit Rozbalit vše Re: problem sestavit rozpadlý RAID 10
Bohužel asi některým z pokusů pole nahodit již disk s Events : 9080 nepoznám protože se tato položka u všech disků změnila.

Po nabootování rescue je tentokráte pořadí disků SD[CDE] pro md127, které nejede SD[AB] pro /boot, swap a /

Po zadání příkazu mdadm --assemble .... jsem dostal:
mdadm: looking for devices for /dev/md2
mdadm: no RAID superblock on /dev/sde1
mdadm: no RAID superblock on /dev/sdd1
mdadm: no RAID superblock on /dev/sdc1
mdadm: cannot open device /dev/sdb1: Device or resource busy
mdadm: cannot open device /dev/sda1: Device or resource busy
mdadm: looking for devices for /dev/md0
mdadm: no RAID superblock on /dev/sde1
mdadm: no RAID superblock on /dev/sdd1
mdadm: no RAID superblock on /dev/sdc1
mdadm: cannot open device /dev/sdb1: Device or resource busy
mdadm: cannot open device /dev/sda1: Device or resource busy
mdadm: looking for devices for /dev/md1
mdadm: no RAID superblock on /dev/sde1
mdadm: no RAID superblock on /dev/sdd1
mdadm: no RAID superblock on /dev/sdc1
mdadm: cannot open device /dev/sdb1: Device or resource busy
mdadm: cannot open device /dev/sda1: Device or resource busy
mdadm: looking for devices for /dev/md127
mdadm: /dev/sde1 has wrong uuid.
mdadm: /dev/sdd1 has wrong uuid.
mdadm: /dev/sdc1 has wrong uuid.
mdadm: cannot open device /dev/sdb1: Device or resource busy
mdadm: cannot open device /dev/sda1: Device or resource busy
Vypnul jsem server a odpojil ještě jiný disk z těch ctyř. Chová se to tak, že ať odpojím cokoliv vždy bude připojeno sdc, pak sdd atd. podle počtu připojených/odpojených disků. Takže nevím jak ten disk určit.

Nemám připojit všechny messages soubory?

Ruda
10.7.2012 14:52 Qéčko
Rozbalit Rozbalit vše Re: problem sestavit rozpadlý RAID 10
Tak se mi podařilo odpojit správný disk.

pokusil jsem se nahodit pole, ale nic:
 mdadm --assemble -v --scan --force --run --uuid=fe53973a:4b3abb79:fdb6ad1a:bea0fe63
mdadm: looking for devices for /dev/md2
mdadm: cannot open device /dev/sdf1: Device or resource busy
mdadm: cannot open device /dev/sde1: Device or resource busy
mdadm: no RAID superblock on /dev/sdd1
mdadm: no RAID superblock on /dev/sdb1
mdadm: no RAID superblock on /dev/sda1
mdadm: looking for devices for /dev/md0
mdadm: cannot open device /dev/sdf1: Device or resource busy
mdadm: cannot open device /dev/sde1: Device or resource busy
mdadm: no RAID superblock on /dev/sdd1
mdadm: no RAID superblock on /dev/sdb1
mdadm: no RAID superblock on /dev/sda1
mdadm: looking for devices for /dev/md1
mdadm: cannot open device /dev/sdf1: Device or resource busy
mdadm: cannot open device /dev/sde1: Device or resource busy
mdadm: no RAID superblock on /dev/sdd1
mdadm: no RAID superblock on /dev/sdb1
mdadm: no RAID superblock on /dev/sda1
mdadm: looking for devices for /dev/md127
mdadm: cannot open device /dev/sdf1: Device or resource busy
mdadm: cannot open device /dev/sde1: Device or resource busy
mdadm: /dev/sdd1 has wrong uuid.
mdadm: /dev/sdb1 has wrong uuid.
mdadm: /dev/sda1 has wrong uuid.
Už se pomalu loučím se daty. :(

Ruda
10.7.2012 15:08 Milan Roubal | skóre: 25
Rozbalit Rozbalit vše Re: problem sestavit rozpadlý RAID 10
jeste bych to nevzdaval.
mdadm: /dev/sdd1 has wrong uuid.
mdadm: /dev/sdb1 has wrong uuid.
mdadm: /dev/sda1 has wrong uuid.
to znamena, ze se zmenilo UUID? Co prave ted vypise mdadm --examine na ty 3 jednotlive disky? Spoustel jsi jen mdadm --assemble, nebo jsi pustil v ramci pokusu o obnovu i mdadm --create?
10.7.2012 15:16 Qéčko
Rozbalit Rozbalit vše Re: problem sestavit rozpadlý RAID 10
Create jsem urcite nespustil. pouze assemble.

Zde je examine na sda1:
mdadm -E /dev/sda1
/dev/sda1:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x0
     Array UUID : fe53973a:4b3abb79:fdb6ad1a:bea0fe63
           Name : backup-server:3
  Creation Time : Tue Mar  6 09:20:54 2012
     Raid Level : raid10
   Raid Devices : 4

 Avail Dev Size : 3900676279 (1859.99 GiB 1997.15 GB)
     Array Size : 7801350144 (3719.97 GiB 3994.29 GB)
  Used Dev Size : 3900675072 (1859.99 GiB 1997.15 GB)
    Data Offset : 2048 sectors
   Super Offset : 8 sectors
          State : clean
    Device UUID : 300b24de:fad08804:25fc142b:076a2c70

    Update Time : Mon Jul  9 12:23:52 2012
       Checksum : debde30 - correct
         Events : 340849

         Layout : near=2
     Chunk Size : 512K

   Device Role : Active device 3
   Array State : ..AA ('A' == active, '.' == missing)
dle tohoto výpisu jsem zadal uuid fe53973a:4b3abb79:fdb6ad1a:bea0fe63

Ruda
10.7.2012 15:51 Milan Roubal | skóre: 25
Rozbalit Rozbalit vše Re: problem sestavit rozpadlý RAID 10
no prikaz
mdadm --assemble --force /dev/md127 /dev/sda1 /dev/sdb1 /dev/sdd1
to proste musi sestavit. Co me jeste napada je, zda to rescue CD nema nejakou historickou verzi mdadm, ktera neumi superblock verze 1.2 a proto se nepodari to pole sestavit.

Pokud vsechny tyto varianty selzou, jeste lze vzdy postupovat podle tohoto navodu, http://en.wikipedia.org/wiki/Mdadm#Recovering_from_a_loss_of_raid_superblock, ale to uz je destruktivni operace a je potreba vsechny parametry dukladne uvazit a spustit to stale jen na tech 3 diskach ve spravnem poradi .
10.7.2012 15:57 Qéčko
Rozbalit Rozbalit vše Re: problem sestavit rozpadlý RAID 10
Zkusil jsem to:
mdadm --assemble --force /dev/md127 /dev/sda1 /dev/sdb1 /dev/sdd1
mdadm: forcing event count in /dev/sdd1(1) from 340839 upto 340849
mdadm: /dev/md127 assembled from 3 drives - not enough to start the array.
[root@localhost ~]# cat /proc/mdstat 
Personalities : [raid0] [raid1] [raid6] [raid5] [raid4] [raid10] [linear] 
md127 : inactive sdd1[1](S) sda1[3](S) sdb1[4](S)
      5851014418 blocks super 1.2
       
md1 : active raid1 sdf1[2] sde1[1]
      5118968 blocks super 1.1 [2/2] [UU]
      
md0 : active raid1 sdf2[0] sde2[1]
      2047988 blocks super 1.0 [2/2] [UU]
      bitmap: 0/1 pages [0KB], 65536KB chunk

md2 : active raid1 sdf3[0] sde3[1]
      237028220 blocks super 1.1 [2/2] [UU]
      bitmap: 0/2 pages [0KB], 65536KB chunk
Pole se nahodí ale je neaktivní
10.7.2012 16:01 Milan Roubal | skóre: 25
Rozbalit Rozbalit vše Re: problem sestavit rozpadlý RAID 10
mdadm --assemble --force --run /dev/md127 /dev/sda1 /dev/sdb1 /dev/sdd1
tohle by uz mohlo to pole nastartovat
10.7.2012 16:04 Milan Roubal | skóre: 25
Rozbalit Rozbalit vše Re: problem sestavit rozpadlý RAID 10
tedy to pole je uz vlastne sestavene, tedy spise
mdadm --manage --run /dev/md127
10.7.2012 16:15 Qéčko
Rozbalit Rozbalit vše Re: problem sestavit rozpadlý RAID 10
je aktivní, namontoval jsem ho. ani neprobíhá synchronizace, je ve stavu clean, degraded:
mdadm --detail /dev/md127
/dev/md127:
        Version : 1.2
  Creation Time : Tue Mar  6 09:20:54 2012
     Raid Level : raid10
     Array Size : 3900675072 (3719.97 GiB 3994.29 GB)
  Used Dev Size : 1950337536 (1859.99 GiB 1997.15 GB)
   Raid Devices : 4
  Total Devices : 3
    Persistence : Superblock is persistent

    Update Time : Tue Jul 10 16:15:17 2012
          State : clean, degraded 
 Active Devices : 3
Working Devices : 3
 Failed Devices : 0
  Spare Devices : 0

         Layout : near=2
     Chunk Size : 512K

           Name : backup-server:3
           UUID : fe53973a:4b3abb79:fdb6ad1a:bea0fe63
         Events : 341017

    Number   Major   Minor   RaidDevice State
       0       0        0        0      removed
       1       8       49        1      active sync   /dev/sdd1
       4       8       17        2      active sync   /dev/sdb1
       3       8        1        3      active sync   /dev/sda1
JSTE BOREC!!!!

Moc děkuji za pomoc.

co s tím odpojeným diskem?

Ruda
10.7.2012 16:25 Milan Roubal | skóre: 25
Rozbalit Rozbalit vše Re: problem sestavit rozpadlý RAID 10
vyborne, ted je potreba ten odpojenej disk fyzicky pripojit a pridat do toho degradovaneho pole pomoci
mdadm --manage /dev/md127 --add /dev/sdc1
pokud to bude prskat, ze na tom disku je uz jine pole, tak muze byt potreba nejprve spustit
mdadm --zero-superblock /dev/sdc1
pak staci pockat par hodin na dokonceni synchronizace pole, rebootovat do normalniho provozu a jit si pro premie :)

Jinak jeste doporucuji nastavit si odesilani emailu v pripade padu jednoho z disku.
Řešení 1× (Milan Roubal)
10.7.2012 16:39 Qéčko
Rozbalit Rozbalit vše Re: problem sestavit rozpadlý RAID 10
Nejdřív si zkopíruji data, protože moc nevěřím že po restartu to pole bude živé.

Pokud bude tak to vše dodělám.

Prémie nebudou, ale aspoň mě nevyhodí.

Moc díky za pomoc.

Ruda
10.7.2012 16:55 dustin | skóre: 63 | blog: dustin
Rozbalit Rozbalit vše Re: problem sestavit rozpadlý RAID 10
Pěkná práce, gratuluji.
10.7.2012 13:59 alkoholik | skóre: 40 | blog: Alkoholik
Rozbalit Rozbalit vše Re: problem sestavit rozpadlý RAID 10
Uz je zbytecne disky fyzicky odpojovat. Staci:
echo 1 > /sys/block/sdX/device/delete
Pak se podivejte do vystupu dmesg, od ktereho radice (Y) se disk odpojil. Pro opetovne pridani staci rescan:
echo "- - -" > /sys/class/scsi_host/hostY/scan
Max avatar 10.7.2012 09:51 Max | skóre: 72 | blog: Max_Devaine
Rozbalit Rozbalit vše Re: problem sestavit rozpadlý RAID 10
Odpovědět | | Sbalit | Link | Blokovat | Admin
Technická, ty používáš autokonfiguraci pole kernelem? Tzn., nepoužíváš natvrdo uložené nastavení v /etc/mdadm.conf?
Zdar Max
Měl jsem sen ... :(
10.7.2012 11:17 Qéčko
Rozbalit Rozbalit vše Re: problem sestavit rozpadlý RAID 10
Popravdě nevím. Asi je to automatem:

Zde je výpis mdadm.conf:
# mdadm.conf written out by anaconda
MAILADDR root
AUTO +imsm +1.x -all
ARRAY /dev/md0 level=raid1 num-devices=2 UUID=833510aa:e7d6aa85:66d20c0d:6dc4b320
ARRAY /dev/md1 level=raid1 num-devices=2 UUID=cf493f3c:bb5e3d4b:682a3004:97749435
ARRAY /dev/md2 level=raid1 num-devices=2 UUID=69b857c5:98cea294:946a8d9a:5d75cfd6
To pole co není sestaveno v něm není vubec uvedeno, ale nevím jestli to nemodifikoval rescue mód, který je teď nabootovaný a ve kterém to řeším.

Ruda
10.7.2012 16:31 Milan Roubal | skóre: 25
Rozbalit Rozbalit vše Re: problem sestavit rozpadlý RAID 10
Ono je otazka jak to dneska s tou autodetekci kernelem vlastne je. Podle https://raid.wiki.kernel.org/index.php/RAID_superblock_formats funguje ta autodetekce pouze na superblock 0.90.
11.7.2012 14:57 trubicoid
Rozbalit Rozbalit vše Re: problem sestavit rozpadlý RAID 10
to je pravda, potrebujes superblock 0.90 a soucasny mdadm --create dela defaultne 1.2

jeste potrebujes partisny typu fd Linux raid-autodetect

jeste ke swapu, je zbytecny ho davat ma raid, proste das vic partici se stejnou prioritou do fstabu, options je treba sw,pri=0
11.7.2012 15:37 iKoulee | skóre: 19
Rozbalit Rozbalit vše Re: problem sestavit rozpadlý RAID 10
jeste ke swapu, je zbytecny ho davat ma raid, proste das vic partici se stejnou prioritou do fstabu, options je treba sw,pri=0
na to pozor, pokud odejde disk na kterem je pak neco odswapovano, muze to vest k velice neprijemne situaci
Even if you fall on your face, you’re still moving forward
11.7.2012 20:57 alkoholik | skóre: 40 | blog: Alkoholik
Rozbalit Rozbalit vše Re: problem sestavit rozpadlý RAID 10
A ke stejne neprijemnym operacim to vede, kdyz kernel potrebuje odswapovat, aby obslouzil RAID se swapem.
12.7.2012 00:38 iKoulee | skóre: 19
Rozbalit Rozbalit vše Re: problem sestavit rozpadlý RAID 10
Ano, to je rozhodne nemile a hlavne na dlouho :-) Prisne technicky vzato, pokud se bavime o serveru, tak by mel byt nastaveny tak, aby se tahle situace nestavala, narozdil od havarie hdd, ktere se technicky vzato predejit neda. Lze provozovat opatreni, ktere snizi pravdepodobnost, ale stejne driv nebo pozdeji narazite na zmetek hdd, ktery odejde pred deklarovanou zivotnosti a pritom byl zahoreny.
Even if you fall on your face, you’re still moving forward
Max avatar 12.7.2012 08:29 Max | skóre: 72 | blog: Max_Devaine
Rozbalit Rozbalit vše Re: problem sestavit rozpadlý RAID 10
Zbytečný to není, swap rozhodně patří na pole, jinak ti je pole na nic a když padne jeden disk, padne i systém.
Stejný prio u dvou swapů se blíží funkci RAID0 ;-).
Zdar Max
Měl jsem sen ... :(
12.7.2012 11:34 trubicoid
Rozbalit Rozbalit vše Re: problem sestavit rozpadlý RAID 10
ano, bezpecnost je na urovni RAID0 ale overhead a rychlost je lepsi

u serveru mate asi pravdu a swap patri na RAID1

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.