Portál AbcLinuxu, 18. července 2025 16:01


Dotaz: Smart - Runtime_Bad_Block

vandrovnik avatar 15.3.2018 21:20 vandrovnik | skóre: 21
Smart - Runtime_Bad_Block
Přečteno: 523×
Odpovědět | Admin
Hezký večer,

vypadl nám jeden disk, a to tak, že odmítal poskytnout i SMART údaje. Po vypnutí/zapnutí se choval lépe (i když občas si server během restartu stěžoval, že disk podle SMART údajů odchází a je třeba ho vyměnit), SMART údaje z něj získat šly, ale sekvenční čtení selhalo po zhruba 90 MB a při pokusu o přepis prvních 512 bajtů dd ohlásil, že na disk nelze zapsat. Kupodivu teď v jiném stroji se disk chová normálně, SMART long test proběhl celý a bez chyby, a jediná divná položka na výpisu je Runtime_Bad_Block = 548. Můžete mi prosím někdo vysvětlit, co přesně ta položka Runtime_Bad_Block znamená? Zatím jsem se s ní u žádného disku nesetkal, vždy jsem vídal především Current_Pending_Sector nebo Offline_Uncorrectable.
=== START OF INFORMATION SECTION ===
Model Family:     Western Digital RE4 (SATA 6Gb/s)
Device Model:     WDC WD2000FYYZ-01UL1B1
Serial Number:    WD-WMC1P0334574
LU WWN Device Id: 5 0014ee 05914ca44
Firmware Version: 01.01K02
User Capacity:    2,000,398,934,016 bytes [2.00 TB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    7200 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS (minor revision not indicated)
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Thu Mar 15 21:12:36 2018 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

...

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   170   170   021    Pre-fail  Always       -       6458
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       64
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   054   054   000    Old_age   Always       -       33954
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       64
183 Runtime_Bad_Block       0x0032   001   001   000    Old_age   Always       -       548
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       29
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       44
194 Temperature_Celsius     0x0022   109   093   000    Old_age   Always       -       41
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Conveyance offline  Completed without error       00%     33954         -
# 2  Extended offline    Completed without error       00%     33953         -

Díky, KR
Nástroje: Začni sledovat (0) ?Zašle upozornění na váš email při vložení nového komentáře.

Odpovědi

15.3.2018 22:26 pc2005
Rozbalit Rozbalit vše Re: Smart - Runtime_Bad_Block
Odpovědět | | Sbalit | Link | Blokovat | Admin
No podle wikipedie to je
total number of data blocks with detected, uncorrectable errors encountered during normal operation
Je možný, že spadlo něco ve firmware a třeba přestaly sedět kontrolní součty na cestě.

Je v pořádku napájení a kabely? Psalo to něco do dmesgu? (alternativní využití toho atributu je počet výpadků SATA rychlosti)

Hmm tak se koukám a můj RE4 je jen o jeden minor novější :-D.
vandrovnik avatar 15.3.2018 22:46 vandrovnik | skóre: 21
Rozbalit Rozbalit vše Re: Smart - Runtime_Bad_Block
V logu jsem našel tohle (pak se to opakuje ještě hodněkrát):
Mar 14 00:01:26 novell kernel: [5702374.022831] ata4.00: exception Emask 0x10 SAct 0xc0000 SErr 0x280101 action 0x6 frozen
Mar 14 00:01:26 novell kernel: [5702374.022835] ata4.00: irq_stat 0x08000000, interface fatal error
Mar 14 00:01:26 novell kernel: [5702374.022839] ata4: SError: { RecovData UnrecovData 10B8B BadCRC }
Mar 14 00:01:26 novell kernel: [5702374.022843] ata4.00: failed command: READ FPDMA QUEUED
Mar 14 00:01:26 novell kernel: [5702374.022849] ata4.00: cmd 60/10:90:b9:a1:c9/00:00:98:00:00/40 tag 18 ncq 8192 in
Mar 14 00:01:26 novell kernel: [5702374.022850]          res 40/00:9c:c9:a1:c9/00:00:98:00:00/40 Emask 0x10 (ATA bus error)
Mar 14 00:01:26 novell kernel: [5702374.022853] ata4.00: status: { DRDY }
Mar 14 00:01:26 novell kernel: [5702374.022855] ata4.00: failed command: READ FPDMA QUEUED
Mar 14 00:01:26 novell kernel: [5702374.022860] ata4.00: cmd 60/10:98:c9:a1:c9/00:00:98:00:00/40 tag 19 ncq 8192 in
Mar 14 00:01:26 novell kernel: [5702374.022861]          res 40/00:9c:c9:a1:c9/00:00:98:00:00/40 Emask 0x10 (ATA bus error)
Mar 14 00:01:26 novell kernel: [5702374.022864] ata4.00: status: { DRDY }
Mar 14 00:01:26 novell kernel: [5702374.022869] ata4: hard resetting link
Mar 14 00:01:26 novell kernel: [5702374.345763] ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Mar 14 00:01:26 novell kernel: [5702374.346836] ata4.00: ACPI cmd ef/10:06:00:00:00:00 (SET FEATURES) succeeded
Mar 14 00:01:26 novell kernel: [5702374.346841] ata4.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
Mar 14 00:01:26 novell kernel: [5702374.346845] ata4.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
Mar 14 00:01:26 novell kernel: [5702374.348713] ata4.00: ACPI cmd ef/10:06:00:00:00:00 (SET FEATURES) succeeded
Mar 14 00:01:26 novell kernel: [5702374.348717] ata4.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
Mar 14 00:01:26 novell kernel: [5702374.348721] ata4.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
Mar 14 00:01:26 novell kernel: [5702374.349554] ata4.00: configured for UDMA/133
M
Napájení i kabely jsou snad OK, běží to tak přes 3 roky, ostatní disky problém nezaznamenaly, server je na UPS a v logu ani krátkodobý výpadek toho dne není. Třeba elektroniku trefila nějaká vysokoenergetická částice z vesmíru :-) Nevím jen, jestli je disk na reklamaci, nebo ne. Vyměnit mu datový kabel a dát ho na jiný SATA port můžeme, ale zrovna tenhle výpadek disku server kupodivu nějak těžce nesl (s výpadkem komunikace s diskem na nějakou dobu zatuhlo asi vše, protože nagios si stěžoval, že mu neodpovídá ssh, apache apod.).
16.3.2018 13:31 pc2005 | skóre: 38 | blog: GardenOfEdenConfiguration | liberec
Rozbalit Rozbalit vše Re: Smart - Runtime_Bad_Block
To běželo ty 3 roky bez powerdownu? :-O

Ad reklamace: tak zkusit to můžeš, ale ten atribut ani není kritický, tak nevím zda to support překousne. Já osobně bych ho používal dál, byť třeba na nějaké méně významné pozici. Zkus ho celej přemazat /dev/urandom a pokud se ani pak neobjeví chyby, tak pohoda. Pokud se objeví chyby, tak bude jednak použitelnej do reklamace, jednak na něm nezůstanou firemní data.
s výpadkem komunikace s diskem na nějakou dobu zatuhlo asi vše
Hmm jestli se ten výpis opakuje často, tak to může být problém. Nemohla nastat chyba naopak třeba v řadiči? Kdyby se třeba přehřál, tak mohl být ten port začít být nestabilní a rozhodit disk (SATA je sice hotplug, ale neřekl bych, že RE4 budou dělaný na častý minivýpadky).
vandrovnik avatar 16.3.2018 15:23 vandrovnik | skóre: 21
Rozbalit Rozbalit vše Re: Smart - Runtime_Bad_Block
Přepis celého disku nulami prošel bez chyby, teď tam mám spuštěný badblock, ten poběží tak do zítřka... Ty chyby se v logu objevovaly až od toho výpadku dále, asi jak server vždy zkusil rozhraní a disk nahodit a ono to zase hned zdechlo - předtím jsem našel jen jeden záznam z předchozího dne a nikdy předtím žádný podobný záznam.
16.3.2018 22:26 pc2005 | skóre: 38 | blog: GardenOfEdenConfiguration | liberec
Rozbalit Rozbalit vše Re: Smart - Runtime_Bad_Block
Jinak tady rozebíraj stejnou chybu.
vandrovnik avatar 16.3.2018 22:37 vandrovnik | skóre: 21
Rozbalit Rozbalit vše Re: Smart - Runtime_Bad_Block
Díky, tohle jsem nevygooglil. Zkusíme jiný kabel, jiný SATA port a uvidíme (badblocks zatím žádné chyby neobjevil). Ještě jednou díky!
15.3.2018 22:27 NN
Rozbalit Rozbalit vše Re: Smart - Runtime_Bad_Block
Odpovědět | | Sbalit | Link | Blokovat | Admin
Nasel jsem, ze:
Runtime bad blocks are the result of an unexpected voltage shift of a cell during a read, write or erase operation.
Co to presne znamena netusim..
15.3.2018 22:35 pc2005
Rozbalit Rozbalit vše Re: Smart - Runtime_Bad_Block
Ale to je pro SSD.
15.3.2018 23:20 Petr
Rozbalit Rozbalit vše Re: Smart - Runtime_Bad_Block
Odpovědět | | Sbalit | Link | Blokovat | Admin
Western Digital, Samsung or Seagate attribute: Either the number of downshifts of link speed (e.g. from 6Gbps to 3Gbps) or the total number of data blocks with detected, uncorrectable errors encountered during normal operation.[38] Although degradation of this parameter can be an indicator of drive aging and/or potential electromechanical problems, it does not directly indicate imminent drive failure

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.