AbcLinuxu:/ Poradna / Linuxová poradna / Zdravie diskov alebo ako sa dozvedieť o blížiacej sa katastrofe

Štítky: CentOS, distribuce, mail, pomoc, skript, Su

Dotaz: Zdravie diskov alebo ako sa dozvedieť o blížiacej sa katastrofe

17.4.2012 10:52 Peter
Zdravie diskov alebo ako sa dozvedieť o blížiacej sa katastrofe

Přečteno: 452×

Odpovědět | Admin

Prajem pekný deň osadenstvu.

Nedávno sa mi stala taká nepríjemná vec, že v jednom serveri (md0 = sda1 + sdb1 && md1 = sda2 + sdb2) mi sdb zahlásil (mám taký malý skript, ktorý každú minútu kontroluje teplotu disku a v prípade prekročenia hranice mi pošle mail a vypne server) 224 stupňov (evidentne blbosť, lebo to by asi v tom serveri musel byť otvorený oheň) a po štarte už nenabehol (vôbec sa neroztočil). Ja že OK, vymením a bude všetko v poriadku. O to väčšie ale bolo moje prekvapenie, keď som zistil, že aj sda je vadný (vadné bloky).

Preto si chcem teraz vytvoriť nejaký komplexný skript, ktorý bude vyhodnocovať všetky možné údaje aby som mohol byť vopred varovaný (ja viem, že katastrofa môže prísť aj ako blesk z jasného neba, to je jasné, že to je bohužiaľ - vyššia moc, ale ak sa dá niečomu vopred zabrániť, tak je to predsa lepšie), ale neviem, že kde začať.

Moja idea je skript, ktorý bude napríklad automaticky vyhodnocovať pomocou smartctl, ale aj napriek prečítaniu niekoľkých článkov som stále tupý z "-t long", "-t short", čo na čo je kedy potrebné použiť a čo mi to vlastne "-a /dev/sda..." vypisuje, ... Proste potrebujem pomôcť s tým, že napríklad: urob každý týždeň "-t long", potom každý deň "-t short" a každú minútu si urob smartctl výpis a kontroluj tieto hodnoty a ak sú zlé, tak je to v prdeli :-D

, ... Potom, ďalšia otázka, je vhodné robiť napríklad každý týždeň badblocks? Nemôže niečomu uškodiť? A vôbec, čo ešte ďalšie a ako pri diskoch kontrolovať? Naskriptujem si to už sám, ja len potrebujem poradiť s "urob toto, skontroluj hento, vypíš tamto, ..."

Dúfam, že som sa vykoktal zrozumiteľne.

P.S.: bežím na CentOS, takže mi tam bežia služby mdmonitor a smartd, tak či by sa pri tom skriptovaní nevedeli voľajako využiť.

Vopred veľmi pekne ďakujem za pomoc.

Nástroje: Začni sledovat (1) ?

Odpovědi

17.4.2012 12:44 rADOn | skóre: 44 | blog: bloK | Praha
Rozbalit Rozbalit vše Re: Zdravie diskov alebo ako sa dozvedieť o blížiacej sa katastrofe

Na nějaké parsovaní dat ze smartu se vybodni. Stejne každý výrobce používá jiná měřítka a co u jednoho je běžná věc může být jinde příznak katastrofy. Pokud velice dobře neznáš vlastnosti daného modelu, snadno něco přehlédneš (příklad - teplota jako příznak selhání stojí jak vidno za prd).

Periodické testy můžou chybu zrovna tak snadno urychlit jako najít. Pokud ty disky nejsou "archivní" a je na nich nějaký provoz, chyba se většinou předem prozradí nárůstem relokací, chybami čtení etc. a nemušíš po něm pořád honit autotesty. Firmware beztak dělá interní testy sám. IMO autotesty jsou spíš pomůcka jak takové podezřelé chování ověřit.

Long story short – nevynalézej kolo. Spusť smart démona, nastav mu poslání emailu při chybě a je to. Firmware disků sám vyhodnotí blížící se průser nejlíp, smart je jen poslíček.

"2^24 comments ought to be enough for anyone" -- CmdrTaco

17.4.2012 12:55 Peter
Rozbalit Rozbalit vše Re: Zdravie diskov alebo ako sa dozvedieť o blížiacej sa katastrofe

OK, chápem, len teraz ako automaticky napríklad zistiť (keďže na serveri nie som zavesený celý deň), že narastá realokovanie a chyby čítania (sorry, za verím tomu, že sprostú otázku, ale aký nástroj mi to povie, respektíve, tuším, že smartctl, ale kde to vyčítam). A čo sa týka smartd, tak v smartd.conf mám (samozrejme vyčítané niekde z netu, takže netuším, že či to je ok a či tam niečo nechýba)

/dev/sda -a -I 194 -W 5,45,55 -R 5 -m (samozrejme, že tam je aj riadok pre sdb).

17.4.2012 12:58 Peter
Rozbalit Rozbalit vše Re: Zdravie diskov alebo ako sa dozvedieť o blížiacej sa katastrofe

Pardon, za to "-m" samozrejme ide mojaadresa@domena.sk

17.4.2012 18:17 rADOn | skóre: 44 | blog: bloK | Praha
Rozbalit Rozbalit vše Re: Zdravie diskov alebo ako sa dozvedieť o blížiacej sa katastrofe

Já asi mluvím do zdi. Relokace jsou u některých disků běžné a nic neznamenají, jinde signalizují průser který čeká až se stane. Pokud nevíš co je tvůj disk zač, prostě se do toho neser. Přestaň řešit tu či onu chybu a prostě nastav přeposílání error logu. Firmware ví evidentně lépe než ty co je závažná chyba, pokud máš třeba seagatku tak tě s relokacemi otravovat nebude. Už jsem to dlouho neměl v ruce, ale co si pamatuji výchozí nastavení smartu je pro běžné ATA disky rozumné a není potřeba nic víc než to -m. Jestě tak nejvíc užitečný je tam nějaký parametr na odesílání testovacího emailu, aby se nestalo že disk bude volat o pomoc a mail skončí někde v díře :-)

A vybodni se na maniakální sledování teploty, na disku to nemá moc smysl. Pokud bude mít disk mechanickou poruchu, zjistíš to ze čtecích chyb (read nebo seek errory) lépe, a pravděpodobně daleko dříve. Navíc teplotní senzor má stejně jako ostatní svůj limit a když se přehřeje, je to chyba jako každá jiná – dostaneš email. Pokud se ti přehřívají jiné části mašiny, pak máš samozřejmě senzory přímo na nich, že ano? :-)

"2^24 comments ought to be enough for anyone" -- CmdrTaco

17.4.2012 13:21 Peter
Rozbalit Rozbalit vše Re: Zdravie diskov alebo ako sa dozvedieť o blížiacej sa katastrofe

A ešte jedna otázka: čo vlastne robí fyzicky disk pri short a long teste a co je to scrubbing raid poľa (niekde som čítal, že je vhodné robiť echo repair > /proc/md/dalej_nepametam_kde a echo check). Ďakujem.

17.4.2012 12:46 bambas | skóre: 20 | blog: bambasovo
Rozbalit Rozbalit vše Re: Zdravie diskov alebo ako sa dozvedieť o blížiacej sa katastrofe

A nebyla by lepsi to rozdelit do vice skriptu a ty spouste cronem? -t long jednou za tyden, short trebas kazdy druhy den. Navic si myslim, ze bude stacit kontolovat disk akorat na vadne sektory a nejakeou defragmentaci, podle pouziteho filesystemu. Nic vic asi nevymyslis...

Cowboys from Hell

17.4.2012 12:50 Peter
Rozbalit Rozbalit vše Re: Zdravie diskov alebo ako sa dozvedieť o blížiacej sa katastrofe

"-t" je OK, samozrejme, že to bude oddelené, len ma zaujímalo, že napríklad vadné sektory kontrolovať badblocks, alebo je aj niečo iné (samozrejme read-only) a ako často a či to nemôže iba niečo zbytočne poškodiť (ak to budem robiť povedzme každý týždeň), ...

17.4.2012 13:34 bambas | skóre: 20 | blog: bambasovo
Rozbalit Rozbalit vše Re: Zdravie diskov alebo ako sa dozvedieť o blížiacej sa katastrofe

badblocks myslim je dostacujici i vzhledem k rychlosti...

Cowboys from Hell

Založit nové vlákno • Nahoru

Tiskni Sdílej: