Portál AbcLinuxu, 10. května 2025 11:05

Dotaz: RAID1 se porad synchronizuje

atan avatar 16.10.2007 23:27 atan | skóre: 21 | Liberec
RAID1 se porad synchronizuje
Přečteno: 1197×
Odpovědět | Admin
Pripojil jsem do raid1 chybejici disk a ted to porad obnovuje data, v /proc/mdstat to dojede do konce a pak zacne znova, A uz to opakuje ponekolikate.
Nástroje: Začni sledovat (1) ?Zašle upozornění na váš email při vložení nového komentáře.

Odpovědi

vasek125 avatar 16.10.2007 23:30 vasek125 | skóre: 30 | Mladá Boleslav
Rozbalit Rozbalit vše Re: RAID1 se porad synchronizuje
Odpovědět | | Sbalit | Link | Blokovat | Admin
Stejný disk jako ten první? Není ten nový disk vadný? Jinak to může způsobovat základní deska.
atan avatar 16.10.2007 23:33 atan | skóre: 21 | Liberec
Rozbalit Rozbalit vše Re: RAID1 se porad synchronizuje
Odpovědět | | Sbalit | Link | Blokovat | Admin
Mam md0 a md1 a strida se to mezi nima. Synchronizuje se jedno zarizeni, druhy ma resync=DELAYED, pak se synchronizuje druhe zarizeni a to prvni ma resync=DELAYED. A takle porad do kolecka.
vasek125 avatar 16.10.2007 23:54 vasek125 | skóre: 30 | Mladá Boleslav
Rozbalit Rozbalit vše Re: RAID1 se porad synchronizuje
Ne že bych byl na raidy nějakej přeborník, ale mě se tohle stávalo když jsem měl bug v ovladači pro řadič disků. Disky jste měnil nebo jste měl od začátku postavený již degradovaný pole?
AraxoN avatar 16.10.2007 23:55 AraxoN | skóre: 47 | blog: slon_v_porcelane | Košice
Rozbalit Rozbalit vše Re: RAID1 se porad synchronizuje
Odpovědět | | Sbalit | Link | Blokovat | Admin
A hlášky v logu?

Prípadne celý výpis /proc/mdstat a fdisk, či sú naozaj správne urobené partície a ich priradenie k RAID oddielom...
AraxoN avatar 16.10.2007 23:59 AraxoN | skóre: 47 | blog: slon_v_porcelane | Košice
Rozbalit Rozbalit vše Re: RAID1 se porad synchronizuje
Odpovědět | | Sbalit | Link | Blokovat | Admin
Alebo čo píše mount bez parametrov? Nemáš náhodou namountované priamo /dev/hdXY namiesto /dev/mdY ? To by sedelo s tým, že hocijaký zápis raid znova rozsynchronizuje, lebo sa zapíše len na jeden z diskov... ?
atan avatar 17.10.2007 01:03 atan | skóre: 21 | Liberec
Rozbalit Rozbalit vše Re: RAID1 se porad synchronizuje
Odpovědět | | Sbalit | Link | Blokovat | Admin
Disky jsou stejne, uz byly v raidu na distru, co tam bylo pred tim. gentoo-sources-2.6.22-r8, mdadm 2.6.2.

/proc/mdstat
Personalities : [raid0] [raid1] [raid10] [raid6] [raid5] [raid4]
md1 : active raid1 sdb3[2] sda3[0]
      31447168 blocks [2/1] [U_]
      [=======>.............]  recovery = 36.7% (11563136/31447168) finish=5.7min speed=57232K/sec

md2 : active raid1 sdb4[2] sda4[0]
      279940544 blocks [2/1] [U_]
        resync=DELAYED

md0 : active raid1 sdb1[1] sda1[0]
      128384 blocks [2/2] [UU]

unused devices: none
Oddily jsou na sektor stejne. Ve vypisu mountu jsou jen md disky.
/dev/md/1 on / type ext3 (rw,noatime)
proc on /proc type proc (rw,nosuid,nodev,noexec)
sysfs on /sys type sysfs (rw,nosuid,nodev,noexec)
udev on /dev type tmpfs (rw,nosuid)
devpts on /dev/pts type devpts (rw,nosuid,noexec)
/dev/md/2 on /home type ext3 (rw,noatime)
shm on /dev/shm type tmpfs (rw,noexec,nosuid,nodev)
usbfs on /proc/bus/usb type usbfs (rw,noexec,nosuid,devmode=0664,devgid=85)
Napada me jedina vec, ktera mi ale prijde nesmyslna. To ze jelikoz se na disky prubezne zapisuje, tak po dokonceni resyncu zase jsou desynchronizovane, coz by znamenalo, ze se musi disky odmountovat. Ale tomu se mi nechce verit.
17.10.2007 08:52 pet
Rozbalit Rozbalit vše Re: RAID1 se porad synchronizuje
Odpovědět | | Sbalit | Link | Blokovat | Admin
Dokažu najít jediné vysvětlení - vadný disk sda, kabel nebo port řadiče. Prohlédněte si logy, pravděpodobně tam najdete zapsané problémy při přístupech k disku. Nebo disk z raidů odeberte a pusťte na něj nějaký test.
vasek125 avatar 17.10.2007 09:51 vasek125 | skóre: 30 | Mladá Boleslav
Rozbalit Rozbalit vše Re: RAID1 se porad synchronizuje
Odpovědět | | Sbalit | Link | Blokovat | Admin
Disky jsou stejne, uz byly v raidu na distru, co tam bylo pred tim. gentoo-sources-2.6.22-r8, mdadm 2.6.2.
To znamena ze minuly funkcni raid byl jen na jinem distru i jinem jadre? Pokud ano, mrknul bych do dmesg.
atan avatar 17.10.2007 11:14 atan | skóre: 21 | Liberec
Rozbalit Rozbalit vše Re: RAID1 se porad synchronizuje
Odpovědět | | Sbalit | Link | Blokovat | Admin
Nevim proc, ale prehlidl jsem v dmesg tohle, porad se to opakuje. ted je problem ze data jsou na /dev/sda, jak mam postupovat abych neprisel o vsechno?
ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0
ata1.00: (irq_stat 0x40000008)
ata1.00: cmd 60/00:00:53:5e:08/04:00:03:00:00/40 tag 0 cdb 0x0 data 524288 in
         res 41/10:00:24:62:08/60:00:03:00:00/40 Emask 0x81 (invalid argument)
ata1.00: configured for UDMA/133
sd 0:0:0:0: [sda] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE,SUGGEST_OK
sd 0:0:0:0: [sda] Sense Key : Aborted Command [current] [descriptor]
Descriptor sense data with sense descriptors (in hex):
        72 0b 14 00 00 00 00 0c 00 0a 80 00 00 00 00 00
        00 08 62 24
sd 0:0:0:0: [sda] Add. Sense: Recorded entity not found
end_request: I/O error, dev sda, sector 50880083
ata1: EH complete
sd 0:0:0:0: [sda] 625142448 512-byte hardware sectors (320073 MB)
sd 0:0:0:0: [sda] Write Protect is off
sd 0:0:0:0: [sda] Mode Sense: 00 3a 00 00
sd 0:0:0:0: [sda] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0
ata1.00: (irq_stat 0x40000008)
ata1.00: cmd 60/08:00:23:62:08/00:00:03:00:00/40 tag 0 cdb 0x0 data 4096 in
         res 41/10:00:24:62:08/60:00:03:00:00/40 Emask 0x81 (invalid argument)
ata1.00: configured for UDMA/133
sd 0:0:0:0: [sda] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE,SUGGEST_OK
sd 0:0:0:0: [sda] Sense Key : Aborted Command [current] [descriptor]
Descriptor sense data with sense descriptors (in hex):
        72 0b 14 00 00 00 00 0c 00 0a 80 00 00 00 00 00
        00 08 62 24
sd 0:0:0:0: [sda] Add. Sense: Recorded entity not found
end_request: I/O error, dev sda, sector 50881059
ata1: EH complete
raid1: sda: unrecoverable I/O read error for block 48519424
sd 0:0:0:0: [sda] 625142448 512-byte hardware sectors (320073 MB)
sd 0:0:0:0: [sda] Write Protect is off
sd 0:0:0:0: [sda] Mode Sense: 00 3a 00 00
sd 0:0:0:0: [sda] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
md: md1: recovery done.
md: recovery of RAID array md2
md: minimum _guaranteed_  speed: 1000 KB/sec/disk.
md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for recovery.
md: using 128k window, over a total of 279940544 blocks.
RAID1 conf printout:
 --- wd:1 rd:2
 disk 0, wo:0, o:1, dev:sda3
 disk 1, wo:1, o:1, dev:sdb3
RAID1 conf printout:
 --- wd:1 rd:2
 disk 0, wo:0, o:1, dev:sda3
RAID1 conf printout:
 --- wd:1 rd:2
 disk 0, wo:0, o:1, dev:sda3
 disk 1, wo:1, o:1, dev:sdb3
md: delaying recovery of md1 until md2 has finished (they share one or more physical units)
atan avatar 17.10.2007 11:25 atan | skóre: 21 | Liberec
Rozbalit Rozbalit vše Re: RAID1 se porad synchronizuje
nemuze to byt spis ovladacem? SMART vypada v pohode:

smartctl -a /dev/sda
smartctl version 5.37 [x86_64-pc-linux-gnu] Copyright (C) 2002-6 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model:     WDC WD3200YS-01PGB0
Serial Number:    WD-WCAPD1899057
Firmware Version: 21.00M21
User Capacity:    320,072,933,376 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   7
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Wed Oct 17 11:22:05 2007 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x84) Offline data collection activity
                                        was suspended by an interrupting command from host.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                 (9600) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 111) minutes.
Conveyance self-test routine
recommended polling time:        (   6) minutes.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   200   200   051    Pre-fail  Always       -       3
  3 Spin_Up_Time            0x0003   192   191   021    Pre-fail  Always       -       5375
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       8
  5 Reallocated_Sector_Ct   0x0033   199   199   140    Pre-fail  Always       -       1
  7 Seek_Error_Rate         0x000f   200   200   051    Pre-fail  Always       -       0
  9 Power_On_Hours          0x0032   095   095   000    Old_age   Always       -       3887
 10 Spin_Retry_Count        0x0013   100   253   051    Pre-fail  Always       -       0
 11 Calibration_Retry_Count 0x0013   100   253   051    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       8
194 Temperature_Celsius     0x0022   120   001   000    Old_age   Always       -       30
196 Reallocated_Event_Count 0x0032   199   199   000    Old_age   Always       -       1
197 Current_Pending_Sector  0x0012   200   200   000    Old_age   Always       -       32
198 Offline_Uncorrectable   0x0010   200   200   000    Old_age   Offline      -       32
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0009   200   200   051    Pre-fail  Offline      -       0

SMART Error Log Version: 1
ATA Error Count: 72 (device log contains only the most recent five errors)
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 72 occurred at disk power-on lifetime: 3886 hours (161 days + 22 hours)
  When the command that caused the error occurred, the device was doing SMART Offline or Self-test.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  10 51 00 24 62 08 40

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 08 00 23 62 08 03 08   1d+18:23:37.727  READ FPDMA QUEUED
  60 08 00 1b 62 08 03 08   1d+18:23:37.727  READ FPDMA QUEUED
  60 08 00 13 62 08 03 08   1d+18:23:37.727  READ FPDMA QUEUED
  60 08 00 0b 62 08 03 08   1d+18:23:37.726  READ FPDMA QUEUED
  60 08 00 03 62 08 03 08   1d+18:23:37.726  READ FPDMA QUEUED

Error 71 occurred at disk power-on lifetime: 3886 hours (161 days + 22 hours)
  When the command that caused the error occurred, the device was doing SMART Offline or Self-test.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  10 51 00 24 62 08 40

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 00 53 5e 08 03 08   1d+18:23:35.767  READ FPDMA QUEUED
  60 00 00 53 5c 08 03 08   1d+18:23:35.764  READ FPDMA QUEUED
  60 00 00 53 58 08 03 08   1d+18:23:35.756  READ FPDMA QUEUED
  60 00 00 53 54 08 03 08   1d+18:23:35.748  READ FPDMA QUEUED
  60 80 00 d3 52 08 03 08   1d+18:23:35.745  READ FPDMA QUEUED

Error 70 occurred at disk power-on lifetime: 3886 hours (161 days + 22 hours)
  When the command that caused the error occurred, the device was doing SMART Offline or Self-test.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  10 51 00 5e 66 6f 40

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 08 00 5e 66 6f 1e 08   1d+18:15:37.796  READ FPDMA QUEUED
  ea 00 00 00 00 00 00 00   1d+18:15:37.772  FLUSH CACHE EXIT
  61 08 00 d3 b9 e3 03 08   1d+18:15:37.771  WRITE FPDMA QUEUED
  ea 00 00 00 00 00 00 00   1d+18:15:37.771  FLUSH CACHE EXIT
  60 80 00 de 71 6f 1e 08   1d+18:15:37.743  READ FPDMA QUEUED

Error 69 occurred at disk power-on lifetime: 3886 hours (161 days + 22 hours)
  When the command that caused the error occurred, the device was doing SMART Offline or Self-test.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  10 51 00 56 66 6f 40

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 08 00 56 66 6f 1e 08   1d+18:15:35.845  READ FPDMA QUEUED
  60 08 00 4e 66 6f 1e 08   1d+18:15:35.845  READ FPDMA QUEUED
  60 08 00 46 66 6f 1e 08   1d+18:15:35.845  READ FPDMA QUEUED
  60 08 00 3e 66 6f 1e 08   1d+18:15:35.845  READ FPDMA QUEUED
  60 08 00 36 66 6f 1e 08   1d+18:15:35.845  READ FPDMA QUEUED

Error 68 occurred at disk power-on lifetime: 3886 hours (161 days + 22 hours)
  When the command that caused the error occurred, the device was doing SMART Offline or Self-test.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  10 51 00 5e 66 6f 40

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 00 5e 66 6f 1e 08   1d+18:15:33.866  READ FPDMA QUEUED
  27 00 00 00 00 00 00 00   1d+18:15:33.866  READ NATIVE MAX ADDRESS EXT
  ec 00 00 00 00 00 00 00   1d+18:15:33.865  IDENTIFY DEVICE
  ef 03 46 00 00 00 00 00   1d+18:15:33.865  SET FEATURES [Set transfer mode]
  27 00 00 00 00 00 00 00   1d+18:15:33.836  READ NATIVE MAX ADDRESS EXT

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
17.10.2007 11:47 linuxik | skóre: 32 | Milovice
Rozbalit Rozbalit vše Re: RAID1 se porad synchronizuje
Ahoj, podle teto hlasky v logu (end_request: I/O error, dev sda, sector 50881059), bude nejspis spatny disk. Proste ten disk co mas jako sda vymen za novy. O data se bat nemusis, vsechno mas na druhem disku.
vasek125 avatar 17.10.2007 13:20 vasek125 | skóre: 30 | Mladá Boleslav
Rozbalit Rozbalit vše Re: RAID1 se porad synchronizuje
Odpovědět | | Sbalit | Link | Blokovat | Admin
Jako první bys měl vyzkoušet jak to funguje s tím původním jádrem, kde byl raid 1 v pořádku. Pokud to buze bez problémů, je problém v ovladači.
atan avatar 17.10.2007 14:22 atan | skóre: 21 | Liberec
Rozbalit Rozbalit vše Re: RAID1 se porad synchronizuje
to nejde, puvodni bylo 32b, ted je to 64b system. a je to stejna verze. ale updatnul jsem jadro a ted cekam jak dopadne prvni dokonceni resyncu.
19.10.2007 17:47 Dalibor
Rozbalit Rozbalit vše Re: RAID1 se porad synchronizuje
Odpovědět | | Sbalit | Link | Blokovat | Admin
Tak presne tenhle problem ted resim ja:

pusti se resync a takhle je to jakmile dobehne:
Oct 19 06:04:31 sfx2100 mdadm: RebuildFinished event detected on md device /dev/md0
Oct 19 06:04:31 sfx2100 kernel: RAID1 conf printout:
Oct 19 06:04:31 sfx2100 kernel:  --- wd:1 rd:2
Oct 19 06:04:31 sfx2100 kernel:  disk 0, wo:0, o:1, dev:sda1
Oct 19 06:04:31 sfx2100 kernel:  disk 1, wo:1, o:1, dev:sdb1
Oct 19 06:04:31 sfx2100 kernel: RAID1 conf printout:
Oct 19 06:04:31 sfx2100 kernel:  --- wd:1 rd:2
Oct 19 06:04:31 sfx2100 kernel:  disk 0, wo:0, o:1, dev:sda1
Oct 19 06:04:31 sfx2100 kernel: RAID1 conf printout:
Oct 19 06:04:31 sfx2100 kernel:  --- wd:1 rd:2
Oct 19 06:04:31 sfx2100 kernel:  disk 0, wo:0, o:1, dev:sda1
Oct 19 06:04:31 sfx2100 kernel:  disk 1, wo:1, o:1, dev:sdb1
Oct 19 06:04:31 sfx2100 kernel: md: syncing RAID array md0
Oct 19 06:04:31 sfx2100 kernel: md: minimum _guaranteed_ reconstruction speed: 1000 KB/sec/disc.
Oct 19 06:04:31 sfx2100 kernel: md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for reconstruction.
Oct 19 06:04:31 sfx2100 kernel: md: using 128k window, over a total of 244195904 blocks.
Oct 19 06:04:31 sfx2100 mdadm: RebuildStarted event detected on md device /dev/md0
Oct 19 06:25:22 sfx2100 -- MARK --
Oct 19 06:45:22 sfx2100 -- MARK --
Oct 19 07:05:22 sfx2100 -- MARK --
Oct 19 07:25:23 sfx2100 -- MARK --
Oct 19 07:29:32 sfx2100 mdadm: Rebuild20 event detected on md device /dev/md0
Oct 19 07:45:23 sfx2100 -- MARK --
a zase to cele frci znova. RAID1 mi frcel vporadku, vypadl disk (sdb), ten jsem vymenil a od te chvile ted resim tohle. Mozna je spatny i ten puvodni (hda), protoze v logu nachazim tohle a docela casto:
Oct 19 10:09:44 sfx2100 kernel: sda: Current: sense key: Medium Error
Oct 19 10:09:44 sfx2100 kernel:     Additional sense: Unrecovered read error - auto reallocate failed
Oct 19 10:09:44 sfx2100 kernel: end_request: I/O error, dev sda, sector 233834687
na ostatnich stejnych serverech mi bezi resync kolem 25MB/s na tomhle jen 5-10MB/s..

myslite, ze bude spatny disk? Takova nahodicka.. oba by odesly naraz..

Diky za tip, Dalibor
AraxoN avatar 19.10.2007 19:42 AraxoN | skóre: 47 | blog: slon_v_porcelane | Košice
Rozbalit Rozbalit vše Re: RAID1 se porad synchronizuje
Že odídu oba disky naraz nie je až taká náhodička - už v niekoľkých diskusiách som čítal o prípadoch, že sa to stalo. Podľa niektorých paranoidných odporúčaní je lepšie pri budovaní RAIDu kupovať síce rovnako veľké disky ale od rôzneho výrobcu, v rôznych obchodoch, a hlavne v rôznej dobe (t.j. počkať medzi nákupom dvoch diskov toho istého poľa kľudne aj mesiac). Účelom je eliminovať práve chyby, ktoré by sa na oboch diskoch mohli prejaviť naraz, t.j. chyby vyplývajúce z výroby (vadná séria), z otrasov a iných vplyvov pri transporte (podchladenie, vlhkosť, ...) či zo zlého zaobchádzania u obchodníka (ak na zem spadne celá krabica s diskami, tak je pravdepodobné, že ak vznikla chyba, tak nebude obmedzená len na jeden disk z krabice). Tieto vady sa dajú reklamovať, ale to nezaručí že dáta nebudú poškodené, ani to že systém bude fungovať 24/7/365.
19.10.2007 19:57 dustin | skóre: 63 | blog: dustin
Rozbalit Rozbalit vše Re: RAID1 se porad synchronizuje
Toho sda bych se co nejrychleji zbavil. Při rebuildu je i původně zdravý disk hodně zatížen, může to vést k jeho polosmrti. Disky prostě přicházejí a odcházejí...
19.10.2007 19:13 svaca | skóre: 38
Rozbalit Rozbalit vše Re: RAID1 se porad synchronizuje
Odpovědět | | Sbalit | Link | Blokovat | Admin
tohle:
Oct 19 10:09:44 sfx2100 kernel: end_request: I/O error, dev sda, sector 233834687
znamena, ze na 99 procent je disk KO ... , paklize by to nebyl disk, byl by to kabel, radic, deska ...
Never give up ! Stay ATARI !
19.10.2007 19:44 Dalibor
Rozbalit Rozbalit vše Re: RAID1 se porad synchronizuje
Tak jsem zjistil, ze to ani nedobehne do konce, ale jen do nejakych 50% a pak to jede od zacatku

unused devices: none
sfx2100:~# cat /proc/mdstat
Personalities : [raid1]
md0 : active raid1 sdb1[2] sda1[0]
      244195904 blocks [2/1] [U_]
      [=========>...........]  recovery = 45.6% (111450944/244195904) finish=155.6min speed=14213K/sec

unused devices: none
sfx2100:~# cat /proc/mdstat
Personalities : [raid1]
md0 : active raid1 sdb1[2] sda1[0]
      244195904 blocks [2/1] [U_]
      [=========>...........]  recovery = 45.7% (111771392/244195904) finish=143.3min speed=15398K/sec

unused devices: none
sfx2100:~# cat /proc/mdstat
Personalities : [raid1]
md0 : active raid1 sdb1[2] sda1[0]
      244195904 blocks [2/1] [U_]
      [=========>...........]  recovery = 47.6% (116315712/244195904) finish=131.7min speed=16174K/sec

unused devices: none
sfx2100:~# cat /proc/mdstat
Personalities : [raid1]
md0 : active raid1 sdb1[2] sda1[0]
      244195904 blocks [2/1] [U_]
      [=========>...........]  recovery = 47.6% (116358144/244195904) finish=121.2min speed=17568K/sec

unused devices: none
sfx2100:~# cat /proc/mdstat
Personalities : [raid1]
md0 : active raid1 sdb1[2] sda1[0]
      244195904 blocks [2/1] [U_]
      [=========>...........]  recovery = 47.8% (116917760/244195904) finish=204.1min speed=10391K/sec

unused devices: none
sfx2100:~# cat /proc/mdstat
Personalities : [raid1]
md0 : active raid1 sdb1[2] sda1[0]
      244195904 blocks [2/1] [U_]
      [>....................]  recovery =  0.7% (1925376/244195904) finish=141.2min speed=28581K/sec

unused devices: none
sfx2100:~# cat /proc/mdstat
Personalities : [raid1]
md0 : active raid1 sdb1[2] sda1[0]
      244195904 blocks [2/1] [U_]
      [>....................]  recovery =  2.4% (6074816/244195904) finish=217.9min speed=18206K/sec

unused devices: none
a v logu jsem na tento cas nasel toto:

Oct 19 19:30:05 sfx2100 kernel: ata1.00: tag 0 cmd 0xc8 Emask 0x9 stat 0x51 err 0x40 (media error)
Oct 19 19:30:05 sfx2100 kernel: ata1: EH complete
Oct 19 19:30:05 sfx2100 kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Oct 19 19:30:05 sfx2100 kernel: ata1.00: (BMDMA stat 0x20)
Oct 19 19:30:05 sfx2100 kernel: ata1.00: tag 0 cmd 0xc8 Emask 0x9 stat 0x51 err 0x40 (media error)
Oct 19 19:30:05 sfx2100 kernel: sd 0:0:0:0: SCSI error: return code = 0x08000002
Oct 19 19:30:05 sfx2100 kernel: sda: Current: sense key: Medium Error
Oct 19 19:30:05 sfx2100 kernel:     Additional sense: Unrecovered read error - auto reallocate failed
Oct 19 19:30:05 sfx2100 kernel: end_request: I/O error, dev sda, sector 233835695
Oct 19 19:30:05 sfx2100 kernel: ata1: EH complete
Oct 19 19:30:05 sfx2100 kernel: raid1: sda: unrecoverable I/O read error for block 233835520
Oct 19 19:30:05 sfx2100 kernel: SCSI device sda: 488397168 512-byte hdwr sectors (250059 MB)
Oct 19 19:30:05 sfx2100 kernel: sda: Write Protect is off
Oct 19 19:30:05 sfx2100 kernel: sda: Mode Sense: 00 3a 00 00
Oct 19 19:30:05 sfx2100 kernel: SCSI device sda: drive cache: write back
Oct 19 19:30:05 sfx2100 kernel: SCSI device sda: 488397168 512-byte hdwr sectors (250059 MB)
Oct 19 19:30:05 sfx2100 kernel: sda: Write Protect is off
Oct 19 19:30:05 sfx2100 kernel: sda: Mode Sense: 00 3a 00 00
Oct 19 19:30:05 sfx2100 kernel: SCSI device sda: drive cache: write back
Oct 19 19:30:06 sfx2100 kernel: md: md0: sync done.
Oct 19 19:30:06 sfx2100 kernel: RAID1 conf printout:
Oct 19 19:30:06 sfx2100 kernel:  --- wd:1 rd:2
Oct 19 19:30:06 sfx2100 kernel:  disk 0, wo:0, o:1, dev:sda1
Oct 19 19:30:06 sfx2100 kernel:  disk 1, wo:1, o:1, dev:sdb1
Oct 19 19:30:06 sfx2100 kernel: RAID1 conf printout:
Oct 19 19:30:06 sfx2100 kernel:  --- wd:1 rd:2
Oct 19 19:30:06 sfx2100 kernel:  disk 0, wo:0, o:1, dev:sda1
Oct 19 19:30:06 sfx2100 kernel: RAID1 conf printout:
Oct 19 19:30:06 sfx2100 kernel:  --- wd:1 rd:2
Oct 19 19:30:06 sfx2100 kernel:  disk 0, wo:0, o:1, dev:sda1
Oct 19 19:30:06 sfx2100 kernel:  disk 1, wo:1, o:1, dev:sdb1
Oct 19 19:30:06 sfx2100 kernel: md: syncing RAID array md0
Oct 19 19:30:06 sfx2100 kernel: md: minimum _guaranteed_ reconstruction speed: 1000 KB/sec/disc.
Oct 19 19:30:06 sfx2100 kernel: md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for reconstruction.
Oct 19 19:30:06 sfx2100 kernel: md: using 128k window, over a total of 244195904 blocks.
Oct 19 19:30:16 sfx2100 kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Oct 19 19:30:16 sfx2100 kernel: ata1.00: (BMDMA stat 0x20)
Oct 19 19:30:16 sfx2100 kernel: ata1.00: tag 0 cmd 0x25 Emask 0x9 stat 0x51 err 0x40 (media error)
Oct 19 19:30:16 sfx2100 kernel: ata1: EH complete
Oct 19 19:30:18 sfx2100 kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Oct 19 19:30:18 sfx2100 kernel: ata1.00: (BMDMA stat 0x20)
Oct 19 19:30:18 sfx2100 kernel: ata1.00: tag 0 cmd 0x25 Emask 0x9 stat 0x51 err 0x40 (media error)
Oct 19 19:30:18 sfx2100 kernel: ata1: EH complete
Oct 19 19:30:20 sfx2100 kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Oct 19 19:30:20 sfx2100 kernel: ata1.00: (BMDMA stat 0x20)
Oct 19 19:30:20 sfx2100 kernel: ata1.00: tag 0 cmd 0x25 Emask 0x9 stat 0x51 err 0x40 (media error)
Oct 19 19:30:20 sfx2100 kernel: ata1: EH complete
Oct 19 19:30:24 sfx2100 kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Oct 19 19:30:24 sfx2100 kernel: ata1.00: (BMDMA stat 0x20)
Oct 19 19:30:24 sfx2100 kernel: ata1.00: tag 0 cmd 0x25 Emask 0x9 stat 0x51 err 0x40 (media error)
Oct 19 19:30:24 sfx2100 kernel: ata1: EH complete
Oct 19 19:30:27 sfx2100 kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Oct 19 19:30:27 sfx2100 kernel: ata1.00: (BMDMA stat 0x20)
Oct 19 19:30:27 sfx2100 kernel: ata1.00: tag 0 cmd 0x25 Emask 0x9 stat 0x51 err 0x40 (media error)
Oct 19 19:30:27 sfx2100 kernel: ata1: EH complete
Oct 19 19:30:29 sfx2100 kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Oct 19 19:30:29 sfx2100 kernel: ata1.00: (BMDMA stat 0x20)
Oct 19 19:30:29 sfx2100 kernel: ata1.00: tag 0 cmd 0x25 Emask 0x9 stat 0x51 err 0x40 (media error)
Oct 19 19:30:29 sfx2100 kernel: sd 0:0:0:0: SCSI error: return code = 0x08000002
Oct 19 19:30:29 sfx2100 kernel: sda: Current: sense key: Medium Error
Oct 19 19:30:29 sfx2100 kernel:     Additional sense: Unrecovered read error - auto reallocate failed
Oct 19 19:30:29 sfx2100 kernel: end_request: I/O error, dev sda, sector 338268375
Oct 19 19:30:29 sfx2100 kernel: ata1: EH complete
Oct 19 19:30:29 sfx2100 kernel: SCSI device sda: 488397168 512-byte hdwr sectors (250059 MB)
Oct 19 19:30:29 sfx2100 kernel: sda: Write Protect is off
Oct 19 19:30:29 sfx2100 kernel: sda: Mode Sense: 00 3a 00 00
Oct 19 19:30:29 sfx2100 kernel: SCSI device sda: drive cache: write back
Oct 19 19:30:29 sfx2100 kernel: SCSI device sda: 488397168 512-byte hdwr sectors (250059 MB)
Oct 19 19:30:29 sfx2100 kernel: sda: Write Protect is off
Oct 19 19:30:29 sfx2100 kernel: sda: Mode Sense: 00 3a 00 00
Oct 19 19:30:29 sfx2100 kernel: SCSI device sda: drive cache: write back
Oct 19 19:30:32 sfx2100 kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Oct 19 19:30:32 sfx2100 kernel: ata1.00: (BMDMA stat 0x20)

to se mi nechce vubec libit, protoze ted vlastne nemam moznost, jak ten RAID zase postavit zpet.. SDB odeslo, to jsem nahradil, ale z SDA se to nemuze resyncnout..
19.10.2007 20:02 dustin | skóre: 63 | blog: dustin
Rozbalit Rozbalit vše Re: RAID1 se porad synchronizuje
Řekl bych, že podle /cat/mdstat máš z pekla štěstí - sdb se stihlo syncnout, než sda padlo - kopírování běží z sdb na sda.
19.10.2007 20:02 dustin | skóre: 63 | blog: dustin
Rozbalit Rozbalit vše Re: RAID1 se porad synchronizuje
Samozřejmě /proc/mdstat... :)
19.10.2007 21:07 Dalibor
Rozbalit Rozbalit vše Re: RAID1 se porad synchronizuje
No, ja nevim, ted mi to podruhe po sobe dobehlo do 47,8% a pak se to rozbehlo znova od nuly, myslite, ze to jede z SDB na SDA? ze bych zkusil z raidu odpojit SDA? to by mohlo skoncit spatne.. do serverovny to mam 300 km ;-)

Je mozne poznat ze ktereho disku se to sype na ten druhy?
19.10.2007 23:22 dustin | skóre: 63 | blog: dustin
Rozbalit Rozbalit vše Re: RAID1 se porad synchronizuje
Pokud by nebyl ani jeden disk v raidu OK, pak bys jej určitě ani nenamontoval. Zatím vždy mi výpis mdstat na místě obnovovaného disku vypsal podtržítko (v pořadí uvedeném o řádek výše). Přesné informace poskytne příkaz mdadm, parametr -Q nebo -D.
19.10.2007 23:23 Dalibor
Rozbalit Rozbalit vše Re: RAID1 se porad synchronizuje
Tak jeste, ze jsem to odpojeni nerisknul, toto se mi vypise po
 mdadm --detail /dev/md0
 Number   Major   Minor   RaidDevice State
       0       8        1        0      active sync   /dev/sda1
       2       8       17        1      spare rebuilding   /dev/sdb1
takze z SDA to kopiruje na SDB. Ted vubec nevim co s tim, doufam, ze se to jednou pres tech 47,8% dostane a rebuildne se to do konce. Potom bych SDA disk vyhodil a nahradil jinym...

Jak muzu po resyncu testnou, jestli tam ty data jsou? Muzu tu partisnu vyhodit z raidu a namountovat abych se mrknul, ze to tam je? Nemuzu prijit jak..

Diky za trpelivost
19.10.2007 23:38 dustin | skóre: 63 | blog: dustin
Rozbalit Rozbalit vše Re: RAID1 se porad synchronizuje
Tak to sorry, důvěřuj ale prověřuj :) Myslel jsem, že je md0 namontovaný a normálně jej používáš. Po namontování to možná bude zase házet chyby sda, pokud její bloky neumí přečíst při synchronizaci.
19.10.2007 23:42 Dalibor
Rozbalit Rozbalit vše Re: RAID1 se porad synchronizuje
vpoho, jsem vdecny za kazdou radu ;-)

md0 je namontovany a pouzivam jej, vsechno to zrejme jede z SDA, divne ale je, ze se to nemuze prekopierovat na SDB pri resyncu.. ted jsem znova vyjmul SDB z raidu, odstranil partisnu SDB, znova ji vytvoril, zformatoval, pridal do raidu a ted se to na ni rebuilduje. Tak jsem zvedavy co se z toho vyklube. Tusim ale, ze si nepomuzu..

Prece uz se nekdo s timto musel setkat ne? ;-)
20.10.2007 15:31 Petr Zajíc | skóre: 9
Rozbalit Rozbalit vše Re: RAID1 se porad synchronizuje
Setkal, u mě to bylo kabelem, což je kuriózní.
20.10.2007 15:50 Dalibor
Rozbalit Rozbalit vše Re: RAID1 se porad synchronizuje
Odpovědět | | Sbalit | Link | Blokovat | Admin
Tak, cely den na tom dnes makam a mam par novych informaci:

disk SDA, ze ktereho se provadi synchronizace jsem projel testama S.M.A.R.T. a ukazalo se, ze obsahuje 3 vadne sektory. Kdyz jsem zkousel badblocks, tak prvni vadny blok se objevil tesne pred pulkou testu (rebuild taky dobehl jen to 47,8%), takze z toho usuzuju, ze kdyz se pri rebuildu doslo na vadny blok, tak se rebuild spustil zase znova.

V teto chvili zalohuju cely disk (
dd if=/dev/sda1 of=/zalohasda/sda1.iso conv=noerror
kde /zalohasda je novy disk) pro pripad, ze se neco podela.

neni nejaka moznost, jak nastavit pri rebuildu aby pri chybe cteni (vadny sektor) proste pokracoval dal za cenu ztraty par souboru? Nebo nejak bez umountu sda1 realokovat vadne bloky a pak udelat klasicky rebulid?

Diky za tipy,

Dalibor
atan avatar 20.10.2007 18:04 atan | skóre: 21 | Liberec
Rozbalit Rozbalit vše Re: RAID1 se porad synchronizuje
Odpovědět | | Sbalit | Link | Blokovat | Admin
Tak u me to dopadlo tak, ze jsem rad, ze dulezita data se zachovaly a rozsypal se jen system, byl na zvlastnim oddilu. Uz ani nebootval nakonec a fsck naslo asi milion chyb a jen nicilo FS jeste vic. Uz je objednany Promise SuperTrak EX4350 a 4 disky pro RAID6. Setreni se nevyplatilo. Data sice ok, ale system nebezel asi 6 hodin. A ja taky byl na mrtvici.

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.