smartctl -t long a rozpadnuty raid1

Pozdravujem.

Mam v dvoch serveroch 1TB disky WD Raid Edition (4) a vsimol som si jednu zakernu vec. V sobotu a v nedelu rano robim dlhy smart test (v sobotu sda, v nedelu sdb) a pred cca troma tyzdnami mi v case ked koncil test sdb mdadm zahlasil chybu na sdb2 a vyhodil ho z pola. Technicky sa ale nic nestalo, dal som remove potom add, vzhladom na to, ze mam zapnutu bitmapu synchronizacia trvala par sekund a ani nasledny check pola nic neukazal. Tento vikend sa mi stalo na druhom serveri to iste len s inym diskom.

A tu je moja otazka - je to normalne? Ja predpokladam, ze smart test tak vytazi disk, ze sa oneskori volajaky zapis a mdadm to vyhodnoti ako chybu a vyhodi ten disk z pola. Ak sa nemylim, tak co sa s tym da robit? Alebo sa mylim a je to nejaka hw zavada?

Dakujem.

Odpovědi

V nedeli rano kdy presne? Od 01:00 bezi check raidu (CentOS).
Jinak smartctl -tlong poustim obcas rucne a zatim se mi nestalo, ze by to rozsypalo RAID. Obcas ho pustim i na oba zrcadlene disky soucasne.

4.2.2013 14:53 Peter
Rozbalit Rozbalit vše Re: smartctl -t long a rozpadnuty raid1

Ano pouzivam CentOS ale nepouzivam tu "original" cron ulohu, ale mam vlastnu ulohu v crontab-e (00:00). Inac tie disky mam cca mesiac a disk v prvom serveri bol vyhodeny hned prvy vikend a od vtedy je vsetko ok a v druhom serveri bolo vsetko ok 3 tyzdne a az na stvrty sa stalo co sa stalo.

4.2.2013 14:59 Peter
Rozbalit Rozbalit vše Re: smartctl -t long a rozpadnuty raid1

Jaj sorry - som volajako nepochopil co si pisal. Tak este raz:

  smartctl -t short sda 1-5,7 00:00
  smartctl -t long sda 6 00:00

  smartctl -t short sdb 1-5,6 00:00
  smartctl -t long sdb 7 00:00

  check md 1 02:00

4.2.2013 15:27 TomM
Rozbalit Rozbalit vše Re: smartctl -t long a rozpadnuty raid1

Pokud jsem to spravne pochopil, tak se snazis, aby se ty joby nepotkaly, ale 2 hodiny na long test nemusi stacit. Kolik pise smartctl, ze to potrva?
Kazdopadne muzu doma zkusit pustit check RAIDu5 a do toho long test a uvidime. Sice to bude na srandaRAIDu 3+S Seagate Dementus "uparkovalseksmrti" 750G 7200.5 (ktere muzou mit oproti WD RE vyssi trpelivost pri retry a opravovani chyb), ale treba se ukaze, ze se to fakt bije.
Jinak jedine moje problemy s RAIDy zpusobily zatim vzdy SATA kabely.

Pošli sem výstup tohto príkazu smartctl -x /dev/sdX. Je možne ,že jeden z diskov dosiahol počet chýb paramtra pri ktorom S.M.A.R.T hlási výmenu disku.

Root v linuxe : "Root povedal, linux vykona."

4.2.2013 18:43 Peter
Rozbalit Rozbalit vše Re: smartctl -t long a rozpadnuty raid1

Příloha:

smart.txt (18282 bytů)

Inac ta teplota je tiez fakt zaujimava - disky maju cca 38 stupnov a urcite nie 100

Feb  3 13:22:19 router smartd[2713]: Device: /dev/sdb [SAT], self-test in progress, 40% remaining
Feb  3 13:52:19 router smartd[2713]: Device: /dev/sdb [SAT], self-test in progress, 30% remaining
Feb  3 14:22:20 router smartd[2713]: Device: /dev/sdb [SAT], self-test in progress, 10% remaining
Feb  3 14:52:19 router smartd[2713]: Device: /dev/sdb [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 108 to 109
Feb  3 14:55:46 router kernel: ata2.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0
Feb  3 14:55:46 router kernel: ata2.00: irq_stat 0x40000008
Feb  3 14:55:46 router kernel: ata2.00: cmd 61/08:00:2f:09:96/00:00:0a:00:00/40 tag 0 ncq 4096 out
Feb  3 14:55:46 router kernel:          res 41/10:00:2f:09:96/00:00:0a:00:00/40 Emask 0x481 (invalid argument)
Feb  3 14:55:46 router kernel: ata2.00: status: { DRDY ERR }
Feb  3 14:55:46 router kernel: ata2.00: error: { IDNF }
Feb  3 14:55:46 router kernel: ata2.00: configured for UDMA/133
Feb  3 14:55:46 router kernel: sd 1:0:0:0: Unhandled sense code
Feb  3 14:55:46 router kernel: sd 1:0:0:0: SCSI error: return code = 0x08000002
Feb  3 14:55:46 router kernel: Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE,SUGGEST_OK
Feb  3 14:55:46 router kernel: sdb: Current [descriptor]: sense key: Aborted Command
Feb  3 14:55:46 router kernel:     Add. Sense: Recorded entity not found
Feb  3 14:55:46 router kernel:
Feb  3 14:55:46 router kernel: Descriptor sense data with sense descriptors (in hex):
Feb  3 14:55:46 router kernel:         72 0b 14 00 00 00 00 0c 00 0a 80 00 00 00 00 00
Feb  3 14:55:46 router kernel:         0a 96 09 2f
Feb  3 14:55:46 router kernel: raid1: Disk failure on sdb2, disabling device.
Feb  3 14:55:46 router kernel:  Operation continuing on 1 devices
Feb  3 14:55:46 router kernel: ata2: EH complete
Feb  3 14:55:46 router kernel: SCSI device sdb: 1953525168 512-byte hdwr sectors (1000205 MB)
Feb  3 14:55:46 router kernel: sdb: Write Protect is off
Feb  3 14:55:47 router kernel: SCSI device sdb: drive cache: write back

4.2.2013 22:29 ewew | skóre: 40 | blog: ewewov_blog
Rozbalit Rozbalit vše Re: smartctl -t long a rozpadnuty raid1

Podľa informácii čo si poskytol, som zistil, že tvoj disk hlási problém s identifikáciou sektora. Blbé je, že existujú dve varianty tejto chyby. Ako prvé radič hladá ID sektora a potom adresnú značku. Bez ID sektora nie je možné najsť daný sektor. Bez adresnej značky nie je možné lokalizovať 512 bajtov uživateľských dát.

Samozrejme je možné,že ide o nejaký bug. Máš možnosť daný disk vymeniť za iný a ten chybný otestovať ?

Root v linuxe : "Root povedal, linux vykona."

5.2.2013 12:35 Peter
Rozbalit Rozbalit vše Re: smartctl -t long a rozpadnuty raid1

Jasne, nie je problem to otestovat - len ako? Badblocks-om? Ale ako som uz povedal - stalo sa to iba pri smartctl -t long, pricom sa smart tvaril, ze je vsetko OK.

5.2.2013 12:45 Peter
Rozbalit Rozbalit vše Re: smartctl -t long a rozpadnuty raid1

No, mam taky dojem, ze to moze byt aj bug

http://bugs.centos.org/print_bug_page.php?bug_id=5575

Len sa neviem dopatrat k presne mojmu problemu (teda ziaden SAS a seriozny server, ale uplne obycajny PC s WD RE4 diskami), ci uz bol reportovany.

Dotaz: smartctl -t long a rozpadnuty raid1

Odpovědi