Portál AbcLinuxu, 10. května 2025 06:23

Dotaz: SMART extended test: read failure

8.3.2009 12:21 thefox | skóre: 25 | Ťapešovo
SMART extended test: read failure
Přečteno: 696×
Odpovědět | Admin
Příloha:

Mám disk (Model Family: Seagate Barracuda 7200.8 family) v serveri, a prišla mi od logchecku hláška: 

smartd[3080]: Device: /dev/sdb, Self-Test Log error count increased from 0 to 1

smartctl -d ata -a /dev/sdb hlási:

# 1  Extended offline    Completed: read failure       90%      5931         52675887

(dvadsať testov pred týmto prebehlo v poriadku (Completed without error)).

Chcel by som sa spýtať tých, čo majú väčšie skúsenosti s diskami, čo s ním. Je zrelý na reklamáciu?

Podľa tohto návodu môže read failure znamenať zlé bloky na disku, no na tomto disku sú atribúty Current_Pending_Sector aj Offline_Uncorrectable na nulovej hodnote.

Všetky atribúty zo SMART:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   052   045   006    Pre-fail  Always       -       90353939
  3 Spin_Up_Time            0x0003   097   097   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       13
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   087   060   030    Pre-fail  Always       -       504516026
  9 Power_On_Hours          0x0032   094   094   000    Old_age   Always       -       5936
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       14
194 Temperature_Celsius     0x0022   041   049   000    Old_age   Always       -       41 (Lifetime Min/Max 0/22)
195 Hardware_ECC_Recovered  0x001a   052   045   000    Old_age   Always       -       90353939
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   190   000    Old_age   Always       -       10
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
202 TA_Increase_Count       0x0032   100   253   000    Old_age   Always       -       0

"Sprosté" raw hodnoty pri Raw_Read_Error_Rate, Seek_Error_Rate a Hardware_ECC_Recovered vyzerajú byť bežnou súčasťou SMART pre barracudy (alebo seagate všeobecne), UDMA_CRC_Error_Count pripisujem tomu, že disk sa niekoľkokrát vystriedal v serveri, kde bola zlá backplane.

Otázka teda stojí, či je disk už zrelý na vyradenie (a reklamáciu - uznajú ju?), alebo stačí nejakým zázrakom opraviť čosi kdesi (ako v linkovanom badblocks howto?

Kompletný výpis smartctl -a -d ata /dev/sdb v prílohe.

0118 999 881 999 119 725 3
Nástroje: Začni sledovat (1) ?Zašle upozornění na váš email při vložení nového komentáře.

Odpovědi

8.3.2009 12:50 NN
Rozbalit Rozbalit vše Re: SMART extended test: read failure
Odpovědět | | Sbalit | Link | Blokovat | Admin

Co ho skusit naformatovat a porovnat hodnoty,

je to mozne?

NN 

8.3.2009 13:17 thefox | skóre: 25 | Ťapešovo
Rozbalit Rozbalit vše Re: SMART extended test: read failure

Ani moc nie, je to produkčný server, takže rôzne pokusy sa nekonajú... Disk každopádne vymením, prípadne ho môžem diagnostikovať potom. Len by som rád zistil, či už niekto videl takúto kombináciu atribútov (ja som z toho SMARTu celkom blbý), a či to nevie interpretovať.

0118 999 881 999 119 725 3
8.3.2009 14:12 Petr Šobáň | skóre: 80 | blog: soban | Olomouc
Rozbalit Rozbalit vše Re: SMART extended test: read failure
A no viděl viz můj:
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   065   058   006    Pre-fail  Always       -       164964416
  3 Spin_Up_Time            0x0003   096   096   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       817
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   086   060   030    Pre-fail  Always       -       421996551
  9 Power_On_Hours          0x0032   088   088   000    Old_age   Always       -       10523
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   097   097   020    Old_age   Always       -       3313
194 Temperature_Celsius     0x0022   030   059   000    Old_age   Always       -       30
195 Hardware_ECC_Recovered  0x001a   065   058   000    Old_age   Always       -       164964416
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
202 TA_Increase_Count       0x0032   100   253   000    Old_age   Always       -       0
8.3.2009 14:08 Petr Šobáň | skóre: 80 | blog: soban | Olomouc
Rozbalit Rozbalit vše Re: SMART extended test: read failure
Odpovědět | | Sbalit | Link | Blokovat | Admin
Nevidím na tom nic podezřelého.

Pokud se bude hodně zvedat UDMA_CRC_Error_Count vyměň kabel.

8.3.2009 14:19 R
Rozbalit Rozbalit vše Re: SMART extended test: read failure
Odpovědět | | Sbalit | Link | Blokovat | Admin
Divne je, ze napriek tomu, ze test skoncil s chybou, nie je ten sektor pending. Skus ho precitat ("hdparm --read-sector" - potrebujes dost novy hdparm), ak nepojde, tak skus viackrat. Ak ani potom nie, tak prepisat.
10.3.2009 08:48 thefox | skóre: 25 | Ťapešovo
Rozbalit Rozbalit vše Re: SMART extended test: read failure
Odpovědět | | Sbalit | Link | Blokovat | Admin

Tak dneska v noci si to ten disk rozmyslel:

Mar  9 23:32:33 janosik smartd[3541]: Device: /dev/sdb, 1 Currently unreadable (pending) sectors
Mar  9 23:32:33 janosik smartd[3541]: Device: /dev/sdb, 1 Offline uncorrectable sectors
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       1
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       1

Medzitým ten disk "zasekol" celý server (ktorýsi proces zostal visieť na čítaní daného bloku), takže disk vyzerá byť úplne štandardne a regulérne pokazený :-).

0118 999 881 999 119 725 3
10.3.2009 10:04 Petr Šobáň | skóre: 80 | blog: soban | Olomouc
Rozbalit Rozbalit vše Re: SMART extended test: read failure
Takže bych ho vyměnil a skontroloval sw od výrobce a případně reklamace pokud je v záruce a sw taky napíše chybu.

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.