Portál AbcLinuxu, 23. dubna 2024 18:02


Dotaz: Rozpad SW RAID1

5.5.2009 10:14 linuxnew
Rozpad SW RAID1
Přečteno: 502×
Odpovědět | Admin
Dobry den, trapim se aktualne s problem sw raid1 (debian lenny, vlastni kernel 2.6.28.1) Pole se podari sestavit,ale vzdy se po nejakem case rozpadne (a to jeste ne stejne, kazdy disk na 7 oddilu a rozpada se to ruzne napr. z sda: sda8 a sda2 a z sdb: sdb6 a sdb3, ruzne se to kombinuje). Pote pole znovu sestavim a nejaky cas drzi.

Ve stroji se protocily celkem uz 4disky, takze se kompletne vymenili, vzdy jeden -> rebuild a po case i druhy disk. Nasledovala vymena celeho stroje napred na zapujceny HW po dobu reklamace (zde vse bezelo OK) a pote i na novy stroj z reklamace (zde opet problemy).
[1261409.351674] ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
[1261409.351744] ata2.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 0
[1261409.351745]          res 51/04:00:0a:24:f9/40:00:11:00:00/a9 Emask 0x1 (device error)
[1261409.351882] ata2.00: status: { DRDY ERR }
[1261409.351926] ata2.00: error: { ABRT }
[1261409.376413] ata2.00: configured for UDMA/33
[1261409.376424] ata2: EH complete
[1261409.376753] sd 1:0:0:0: [sdb] 976773168 512-byte hardware sectors: (500 GB/465 GiB)
[1261411.022238] end_request: I/O error, dev sdb, sector 976767913
[1261411.022290] md: super_written gets error=-5, uptodate=0
[1261411.022293] raid1: Disk failure on sdb8, disabling device.
[1261411.022294] raid1: Operation continuing on 1 devices.
[1261411.022537] sd 1:0:0:0: [sdb] Write Protect is off
[1261411.022539] sd 1:0:0:0: [sdb] Mode Sense: 00 3a 00 00
[1261411.022874] sd 1:0:0:0: [sdb] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
[1261411.060850] RAID1 conf printout:
[1261411.060852]  --- wd:1 rd:2
[1261411.060854]  disk 0, wo:0, o:1, dev:sda8
[1261411.060857]  disk 1, wo:1, o:0, dev:sdb8
[1261411.072012] RAID1 conf printout:
[1261411.072014]  --- wd:1 rd:2
[1261411.072022]  disk 0, wo:0, o:1, dev:sda8
[1261419.355645] ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
[1261419.355704] ata1.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 0
[1261419.355706]          res 51/04:00:0a:24:f9/10:00:2d:00:00/a9 Emask 0x1 (device error)
[1261419.355851] ata1.00: status: { DRDY ERR }
[1261419.355894] ata1.00: error: { ABRT }
[1261419.381485] ata1.00: configured for UDMA/133
[1261419.381502] ata1: EH complete
[1261419.381815] sd 0:0:0:0: [sda] 976773168 512-byte hardware sectors: (500 GB/465 GiB)
[1261419.503613] end_request: I/O error, dev sda, sector 976767913
[1261419.503667] md: super_written gets error=-5, uptodate=0
[1261419.503695] sd 0:0:0:0: [sda] Write Protect is off
[1261419.503699] sd 0:0:0:0: [sda] Mode Sense: 00 3a 00 00
[1261419.544269] sd 0:0:0:0: [sda] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
[1261427.740335] ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
[1261427.740395] ata1.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 0
[1261427.740396]          res 51/04:00:0a:24:f9/10:00:2d:00:00/a9 Emask 0x1 (device error)
[1261427.740531] ata1.00: status: { DRDY ERR }
[1261427.740575] ata1.00: error: { ABRT }
[1261427.781965] ata1.00: configured for UDMA/133
[1261427.781980] ata1: EH complete
Take jsem zjistil, ze disky maji jinak nastavene UDMA?
root:~# hdparm -i /dev/sda | grep DMA
 IORDY=on/off, tPIO={min:120,w/IORDY:120}, tDMA={min:120,rec:120}
 DMA modes:  mdma0 mdma1 mdma2
 UDMA modes: udma0 udma1 udma2 udma3 udma4 udma5 *udma6
root:~# hdparm -i /dev/sdb | grep DMA
 IORDY=on/off, tPIO={min:120,w/IORDY:120}, tDMA={min:120,rec:120}
 DMA modes:  mdma0 mdma1 mdma2
 UDMA modes: udma0 udma1 *udma2 udma3 udma4 udma5 udma6
Disky jsem samostatne (pote co jsme je vyhodil z pole) projel badblockem a pouzil na ne smartctl (long test) oboje rika,ze jsou fine a zadne vadne sektory.

Nekde jsem se docetl, ze by tohle mohl zpusobovat vadny SATA kabel, v dmesg jsou obcas nekde zahlednuti hlasky jako hard reset sata. (taky bych rekl, ze s tim souvisi to udma -> snazi se ten prenos zpomalit)

Muzu zkusit vymenit kabely nebo zkusit posledni kernel 2.6.29.2, ale jsem z toho pekne zmateny, dokazal by nekdo poradit? Diky.
Nástroje: Začni sledovat (0) ?Zašle upozornění na váš email při vložení nového komentáře.

Odpovědi

5.5.2009 10:39 pavel
Rozbalit Rozbalit vše Re: Rozpad SW RAID1
Odpovědět | | Sbalit | Link | Blokovat | Admin

Dlouho jsem mel problem s resetovanim sata a pomohla zminena vymena kabelu. Byly uplne nove zabalene k desce. Takze to bych zkusil jako prvni reseni.

Osobne provozuju 2 servery na lennym s RAID 1 bez problemu.

gtz avatar 5.5.2009 11:47 gtz | skóre: 27 | blog: gtz | Brno
Rozbalit Rozbalit vše Re: Rozpad SW RAID1
Odpovědět | | Sbalit | Link | Blokovat | Admin

Použil bych nový kabel , stalo se nám, že kabel SATA vyhodil 2 disky z RAID5. Přitom to byl kabel k řadiči 3WARE. Doporučuji použít lepší a značkový ( AKASA  možný i Roline ) a neohýbat ho a nelámat.

- nejhorší jsou trpaslíci ... Ti Vám vlezou úplně všude
6.5.2009 14:33 R
Rozbalit Rozbalit vše Re: Rozpad SW RAID1
Ano, SATA kable su hrozne smejdy.

Chcelo by to cely vypis SMART atributov - tam by malo byt vidiet CRC error count.

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.