abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
eParkomat, startup z ČR, postoupil mezi finalisty evropského akcelerátoru ChallengeUp!
Robot na pivo mu otevřel dveře k opravdovému byznysu
Internet věcí: Propojený svět? Už se to blíží...
včera 21:21 | Nová verze Ladislav Hagara | Komentářů: 0
včera 11:44 | Zajímavý projekt

Na Indiegogo byla spuštěna kampaň na podporu herní mini konzole a multimediálního centra RetroEngine Sigma od Doyodo. Předobjednat ji lze již od 49 dolarů. Požadovaná částka 20 000 dolarů byla překonána již 6 krát. Majitelé mini konzole si budou moci zahrát hry pro Atari VCS 2600, Sega Genesis nebo NES. Předinstalováno bude multimediální centrum Kodi.

Ladislav Hagara | Komentářů: 0
včera 00:10 | Nová verze

Byla vydána verze 4.7 redakčního systému WordPress. Kódové označením Vaughan bylo vybráno na počest americké jazzové zpěvačky Sarah "Sassy" Vaughan. Z novinek lze zmínit například novou výchozí šablonu Twenty Seventeen, náhledy pdf souborů nebo WordPress REST API.

Ladislav Hagara | Komentářů: 1
6.12. 12:00 | Zajímavý projekt

Projekt Termbox umožňuje vyzkoušet si linuxové distribuce Ubuntu, Debian, Fedora, CentOS a Arch Linux ve webovém prohlížeči. Řešení je postaveno na projektu HyperContainer. Podrobnosti v často kladených dotazech (FAQ). Zdrojové kódy jsou k dispozici na GitHubu [reddit].

Ladislav Hagara | Komentářů: 25
6.12. 11:00 | Bezpečnostní upozornění

Byly zveřejněny informace o bezpečnostní chybě CVE-2016-8655 v Linuxu zneužitelné k lokální eskalaci práv. Chyba se dostala do linuxového jádra v srpnu 2011. V upstreamu byla opravena minulý týden [Hacker News].

Ladislav Hagara | Komentářů: 2
5.12. 22:00 | Komunita

Přibližně před měsícem bylo oznámeno, že linuxová distribuce SUSE Linux Enterprise Server (SLES) běží nově také Raspberry Pi 3 (dokumentace). Obraz verze 12 SP2 pro Raspberry Pi 3 je ke stažení zdarma. Pro registrované jsou po dobu jednoho roku zdarma také aktualizace. Dnes bylo oznámeno, že pro Raspberry Pi 3 je k dispozici také nové openSUSE Leap 42.2 (zprávička). K dispozici je hned několik obrazů.

Ladislav Hagara | Komentářů: 6
5.12. 06:00 | Zajímavý software

OMG! Ubuntu! představuje emulátor terminálu Hyper (GitHub) postavený na webových technologiích (HTML, CSS a JavaScript). V diskusi k článku je zmíněn podobný emulátor terminálu Black Screen. Hyper i Black Screen používají framework Electron, stejně jako editor Atom nebo vývojové prostředí Visual Studio Code.

Ladislav Hagara | Komentářů: 50
5.12. 06:00 | Zajímavý článek

I letos vychází řada ajťáckých adventních kalendářů. QEMU Advent Calendar 2016 přináší každý den nový obraz disku pro QEMU. Programátoři se mohou potrápit při řešení úloh z kalendáře Advent of Code 2016. Kalendáře Perl Advent Calendar 2016 a Perl 6 Advent Calendar přinášejí každý den zajímavé informace o programovacím jazyce Perl. Stranou nezůstává ani programovací jazyk Go.

Ladislav Hagara | Komentářů: 10
3.12. 16:24 | Nová verze

Byla vydána Mageia 5.1. Jedná se o první opravné vydání verze 5, jež vyšla v červnu loňského roku (zprávička). Uživatelům verze 5 nepřináší opravné vydání nic nového, samozřejmě pokud pravidelně aktualizují. Vydání obsahuje všechny aktualizace za posledního téměř půldruhého roku. Mageia 5.1 obsahuje LibreOffice 4.4.7, Linux 4.4.32, KDE4 4.14.5 nebo GNOME 3.14.3.

Ladislav Hagara | Komentářů: 17
3.12. 13:42 | Pozvánky

V Praze probíhá konference Internet a Technologie 16.2, volné pokračování jarní konference sdružení CZ.NIC. Konferenci lze sledovat online na YouTube. K dispozici je také archiv předchozích konferencí.

Ladislav Hagara | Komentářů: 0
Kolik máte dat ve svém domovském adresáři na svém primárním osobním počítači?
 (32%)
 (24%)
 (29%)
 (8%)
 (5%)
 (3%)
Celkem 786 hlasů
 Komentářů: 50, poslední 29.11. 15:50
Rozcestník
Reklama

Dotaz: SW RAID1: umírá disk?

6.9.2009 12:24 Michal Pěnka
SW RAID1: umírá disk?
Přečteno: 1065×
Příloha:

Hezký den,

bohužel jsem zjistil, že se ke svému domácímu serveru nemohu přihlásit přes SSH. Když jsem tedy připojil monitor a klávesnici, viděl jsem mnoho řádků I/O error (ext3-fs error (device md0): ext3_get_inode_loc: unable to read inode block - inode=...). Nešlo se ani přihlásit, nemohl jsem ani pomocí ctrl+alt+del vyvolat reboot. Takže tvrdý reset.

Po resetu jel počítač bez problému. Dnes ale podruhé, úplně ten samý problém.

Na serveru mám nainstalovaný Ubuntu Server 8.10. Jedná se o Intel Little Valley s integrovaným procesorem Intel Atom, 1 GB ram a 2 disky Samsung Spinpoint F1 (HD103UJ) použité pro SW RAID 1 (zvoleno při instalaci systému).

cat /proc/mdstat vypisuje toto:

Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]
md0 : active raid1 sda2[0]
      975587200 blocks [2/1] [U_]
     
md1 : active raid1 sda1[0] sdb1[1]
      1172608 blocks [2/2] [UU]
     
unused devices: <none>

V kern.log mám napřílad toto:

Sep  6 12:55:53 junior kernel: [ 3806.494192] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Sep  6 12:55:53 junior kernel: [ 3806.494291] ata3.00: BMDMA stat 0x26
Sep  6 12:55:53 junior kernel: [ 3806.494354] ata3.00: cmd 35/00:00:6a:6f:f0/00:04:0f:00:00/e0 tag 0 dma 524288 out
Sep  6 12:55:53 junior kernel: [ 3806.494488] ata3.00: status: { DRDY ERR }
Sep  6 12:55:53 junior kernel: [ 3806.494537] ata3.00: error: { ABRT }
Sep  6 12:55:53 junior kernel: [ 3806.628486] ata3.00: configured for UDMA/133
Sep  6 12:55:53 junior kernel: [ 3806.628535] ata3: EH complete
Sep  6 12:57:37 junior kernel: [ 3910.812056] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
Sep  6 12:57:37 junior kernel: [ 3910.812134] ata3.00: cmd 35/00:d0:22:23:f2/00:03:0f:00:00/e0 tag 0 dma 499712 out
Sep  6 12:57:48 junior kernel: [ 3910.812276] ata3.00: status: { DRDY }
Sep  6 12:57:48 junior kernel: [ 3915.852024] ata3: link is slow to respond, please be patient (ready=0)
Sep  6 12:57:48 junior kernel: [ 3920.836023] ata3: device not ready (errno=-16), forcing hardreset
Sep  6 12:57:48 junior kernel: [ 3920.836041] ata3: soft resetting link
Sep  6 12:57:48 junior kernel: [ 3921.008372] ata3.00: configured for UDMA/133
Sep  6 12:57:48 junior kernel: [ 3921.008404] ata3: EH complete

Výstup příkazu sudo smartctl -a /dev/sda (resp. sda) jsem vložil do přílohy. U sda jsou vypsány nějaké chyby, kterým nerozumím.

Konečně dotazy:

  1. co se to děje? je sda opravdu vadný?
  2. nemohu přijít o data uložená na poli? (nebudou případné chyby mirrorovány i na sdb?)
  3. pokud je sda vadný, mohu jej odpojit a nechat systém běžet krátce jen s jedním diskem? (nezapomeňte na SW RAID1, grub mám na obou, takže by měl systém nabíhat)
  4. pokud sda vyndám a nahradím správným kusem, obnoví se pole automaticky, nebo to musím vyvolat ručně? (jak?)

Předem díky za (v tuto chvíli snad ještě VELMI) cenné rady.

Odpovědi

6.9.2009 13:00 trekker.dk | skóre: 71
Rozbalit Rozbalit vše Re: SW RAID1: umírá disk?
co se to děje? je sda opravdu vadný?
Divné - podle smartu je vadný sda, ale z toho RAIDu md0 vypadl sdb2, takže v danou chvíli evidentně jádro usoudilo, že vadný je sdb.
nemohu přijít o data uložená na poli? (nebudou případné chyby mirrorovány i na sdb?)
Neměly by - v případě, že jádro zjistí, že nějaký disk v poli je vadný, z pole ho vyhodí.
pokud je sda vadný, mohu jej odpojit a nechat systém běžet krátce jen s jedním diskem?
Dokud v RAID1 zbývá alespoň 1 funkční disk, můžeš ostatní disky odpojit a (pokud máš zavaděč všude) systém by měl nadále fungovat.
pokud sda vyndám a nahradím správným kusem, obnoví se pole automaticky, nebo to musím vyvolat ručně?
Obnova pole se spustí automaticky, co do něj vložíš nový disk. (Vložíš znamená mdadm /dev/mdZ --add /dev/sdXY, kde X je disk a Y oddíl na tom disku, Z potom číslo md zařízení. Syntax pro ten mdadm si pro jistotu zkontroluj podle manuálu.)

Kromě disku ještě může být (s menší pravděpodobností) vadný řadič. Nejjednoduššeji to vyzkoušíš, když ten vadný disk (až přidješ na to, který to je) vyndáš a otestuješ v jiném počítači.
Quando omni flunkus moritati
6.9.2009 13:27 Michal Pěnka
Rozbalit Rozbalit vše Re: SW RAID1: umírá disk?

Ahoj. Díky za reakci.

Zapomněl jsem uvést, že mám oba disky rozdělené na 1 GB swap (sda1,sdb1 = md1) a zbytek do 1 TB na / (sda2,sdb2 = md0).

Bohužel nevím, jak by měl vypadat výstup z /proc/mdstat, ale předpokládám, že by u md0 i md1 měly být uvedeny oba disky (tedy ne jen sda). Je to tak?

Podívej prosím na tohle:

sudo mdadm --query --detail /dev/md1
/dev/md1:
        Version : 00.90
  Creation Time : Sat Dec 20 20:01:36 2008
     Raid Level : raid1
     Array Size : 1172608 (1145.32 MiB 1200.75 MB)
  Used Dev Size : 1172608 (1145.32 MiB 1200.75 MB)
   Raid Devices : 2
  Total Devices : 2
Preferred Minor : 1
    Persistence : Superblock is persistent

    Update Time : Sun Sep  6 13:29:44 2009
          State : clean
 Active Devices : 2
Working Devices : 2
 Failed Devices : 0
  Spare Devices : 0

           UUID : bf9893c6:c6602749:ef907f74:7a4ad805
         Events : 0.40

    Number   Major   Minor   RaidDevice State
       0       8        1        0      active sync   /dev/sda1
       1       8       17        1      active sync   /dev/sdb1

A potom prosím podívej na tohle:

sudo mdadm --query --detail /dev/md0
/dev/md0:
        Version : 00.90
  Creation Time : Sat Dec 20 20:01:05 2008
     Raid Level : raid1
     Array Size : 975587200 (930.39 GiB 999.00 GB)
  Used Dev Size : 975587200 (930.39 GiB 999.00 GB)
   Raid Devices : 2
  Total Devices : 1
Preferred Minor : 0
    Persistence : Superblock is persistent

    Update Time : Sun Sep  6 14:24:36 2009
          State : active, degraded
 Active Devices : 1
Working Devices : 1
 Failed Devices : 0
  Spare Devices : 0

           UUID : 48d95eb0:844b56ac:37e44c7c:17054917
         Events : 0.1545647

    Number   Major   Minor   RaidDevice State
       0       8        2        0      active sync   /dev/sda2
       1       0        0        1      removed

Z toho je vidět, že na md1 se podílí oba disky, na md0 se podílí jen sda! Přitom smartmontools hlásí chyby pro sda, ne pro sdb.

Jde mi z toho hlava kolem. Teď dělám dlouhý smart test pro sda. Máš nějaké další tipy? Pochybuju, že jsem ručně odebral sdb2 z md0 :/

6.9.2009 13:31 trekker.dk | skóre: 71
Rozbalit Rozbalit vše Re: SW RAID1: umírá disk?
Bohužel nevím, jak by měl vypadat výstup z /proc/mdstat, ale předpokládám, že by u md0 i md1 měly být uvedeny oba disky (tedy ne jen sda). Je to tak?
Jo.
Jde mi z toho hlava kolem. Teď dělám dlouhý smart test pro sda. Máš nějaké další tipy?
Nic víc, než je níže.
Quando omni flunkus moritati
6.9.2009 13:41 Franta Hanzlik
Rozbalit Rozbalit vše Re: SW RAID1: umírá disk?

Zajímavé je také, že sdb má o (7970 - 7550) / 24 = 17.5 dne menší SpinUp čas, ačkoliv PowerOn čas je prakticky stejný. Že by jej systém už někdy předtím odpojil celý (teď ne, to by sdb2 nebyl aktivní) ?

6.9.2009 13:44 Michal Pěnka
Rozbalit Rozbalit vše Re: SW RAID1: umírá disk?

Tak takového detailu jsem si opravdu nevšiml. Je pravda, že disky jsem kupoval a instaloval najednou, takže by měly mít spinup stejný. To odpojení je opravdu zvláštní.

houska avatar 6.9.2009 13:04 houska | skóre: 41 | blog: HW
Rozbalit Rozbalit vše Re: SW RAID1: umírá disk?

vsiml sis, ze z md0 je vypadl sdb2 a nikoliv sda2? pro jisotu jeste mrkni na mdadm --detail /dev/md0

ad 2/ udelej zalohu dat!

ad 4/ disk do pole pridas: mdadm /dev/md0 -add /dev/neco

6.9.2009 13:30 Michal Pěnka
Rozbalit Rozbalit vše Re: SW RAID1: umírá disk?

Ahoj, taky děkuju za reakci.

Koukni prosím na odpověď na předchozí reakci, tam jsem výpis mdadm --detal /dev/mdX vypsal. Chytrý z toho vůbec nejsem :/

6.9.2009 13:09 R
Rozbalit Rozbalit vše Re: SW RAID1: umírá disk?
Podla SMARTu vyzeraju byt oba disky OK. Podla ERROR logu disku sda by som povedal, ze tam mas vadny kabel (to by suhlasilo s tym, ze tam mas 142 CRC chyb). Takze ten kabel rovno vymen.

Pusti si na oboch self-test ("smartctl -t short" a "smartctl -t long") - to bezi na pozadi. Vysledok bude v tom logu.
6.9.2009 13:33 Michal Pěnka
Rozbalit Rozbalit vše Re: SW RAID1: umírá disk?

Ahoj. Děkuju za odpověď.

Právě mi dlouhý test běží. Kde najde výsledek? V jakém logu? :) Díky.

Kabel mám náhradní bohužel jen jeden, zkusím tedy vyměnit ten k sda. Zvláštní ale je, že se mi teď ty I/O chyby vůbec nevypisují. Zato předtím se mi jich vypsalo až až...

6.9.2009 13:21 Franta Hanzlik
Rozbalit Rozbalit vše Re: SW RAID1: umírá disk?

Hm, smartctl výstup /dev/sda vypadá to spíš na chyby přenosu mezi diskem a řadičem na MB (i když hodnota "Hardware_ECC_Recovered" u sda je víc než podivná). Souhlasí, že ty disky běží cca třičtvrtě roku? Asi bych zkusil očistit kontakty, vyměnit datový kabel, otestovat jej v jiném stroji.

Každopádně, podle mdstat, je /dev/md1 aktivní a synchronizované, ale v /dev/md0 systém používá jen /dev/sda2 - takže /dev/sdb2 z nějakého důvodu deaktivoval, podrobnosti najdete ve "/var/log/messages" - možná se mu při startu zdál sda2 "čerstvější", třeba projet log. Situace tedy vypadá tak, že md0 běží degradované a s diskem, který se zdá blbne.

1) něco se děje, jestli je to disk nebo něco jiného se asi na 100% říci nedá

2) o data byste přijít neměl, chyby mirrorovány nebudou.

3) zjistěte, jak dlouho je md0 rozpadlý, jak důležitá data se tam od té doby mohla změnit a podle toho se musíte rozhodnout

4) ručně, "mdadm /dev/md0 -add /dev/PARTIŠNAVYMĚNĚNÉHODISKU

Co říká "hdparm -I" ?

6.9.2009 13:42 Michal Pěnka
Rozbalit Rozbalit vše Re: SW RAID1: umírá disk?

Ahoj Franto. Díky za odpověď. (nevadí tykání? :))

Disky by mohly být cca 3/4 roku staré, jedou v tom serveru téměř 24 hodin denně. Kabel mám jen jeden, a jak už mi bylo doporučeno, až doběhne test smartmontools, tak zkusím k sda vyměnit.

hdparm -I /dev/sda:

/dev/sda:

ATA device, with non-removable media
    Model Number:       SAMSUNG HD103UJ                        
    Serial Number:      S13PJ9AQC03115     
    Firmware Revision:  1AA01113
Standards:
    Used: ATA-8-ACS revision 3b
    Supported: 7 6 5 4
Configuration:
    Logical        max    current
    cylinders    16383    16383
    heads        16    16
    sectors/track    63    63
    --
    CHS current addressable sectors:   16514064
    LBA    user addressable sectors:  268435455
    LBA48  user addressable sectors: 1953525168
    device size with M = 1024*1024:      953869 MBytes
    device size with M = 1000*1000:     1000204 MBytes (1000 GB)
Capabilities:
    LBA, IORDY(can be disabled)
    Queue depth: 32
    Standby timer values: spec'd by Standard, no device specific minimum
    R/W multiple sector transfer: Max = 16    Current = 16
    Advanced power management level: disabled
    Recommended acoustic management value: 254, current value: 0
    DMA: mdma0 mdma1 mdma2 udma0 udma1 udma2 udma3 udma4 udma5 *udma6 udma7
         Cycle time: min=120ns recommended=120ns
    PIO: pio0 pio1 pio2 pio3 pio4
         Cycle time: no flow control=120ns  IORDY flow control=120ns
Commands/features:
    Enabled    Supported:
       *    SMART feature set
            Security Mode feature set
       *    Power Management feature set
       *    Write cache
       *    Look-ahead
       *    Host Protected Area feature set
       *    WRITE_BUFFER command
       *    READ_BUFFER command
       *    NOP cmd
       *    DOWNLOAD_MICROCODE
            Advanced Power Management feature set
            Power-Up In Standby feature set
       *    SET_FEATURES required to spinup after power up
            SET_MAX security extension
            Automatic Acoustic Management feature set
       *    48-bit Address feature set
       *    Device Configuration Overlay feature set
       *    Mandatory FLUSH_CACHE
       *    FLUSH_CACHE_EXT
       *    SMART error logging
       *    SMART self-test
            Media Card Pass-Through
       *    General Purpose Logging feature set
       *    64-bit World wide name
       *    WRITE_UNCORRECTABLE_EXT command
       *    {READ,WRITE}_DMA_EXT_GPL commands
       *    Segmented DOWNLOAD_MICROCODE
       *    SATA-I signaling speed (1.5Gb/s)
       *    SATA-II signaling speed (3.0Gb/s)
       *    Native Command Queueing (NCQ)
       *    Host-initiated interface power management
       *    Phy event counters
       *    unknown 76[12]
            DMA Setup Auto-Activate optimization
            Device-initiated interface power management
       *    Software settings preservation
       *    SMART Command Transport (SCT) feature set
       *    SCT Long Sector Access (AC1)
       *    SCT LBA Segment Access (AC2)
       *    SCT Error Recovery Control (AC3)
       *    SCT Features Control (AC4)
       *    SCT Data Tables (AC5)
Security:
    Master password revision code = 65534
        supported
    not    enabled
    not    locked
        frozen
    not    expired: security count
        supported: enhanced erase
    170min for SECURITY ERASE UNIT. 170min for ENHANCED SECURITY ERASE UNIT.
Logical Unit WWN Device Identifier: 5000f0060c1351
    NAA        : 5
    IEEE OUI    : f0
    Unique ID    : 060c1351
Checksum: correct

hdparm -I /dev/sdb:

/dev/sdb:

ATA device, with non-removable media
    Model Number:       SAMSUNG HD103UJ                        
    Serial Number:      S13PJ9AQC03116     
    Firmware Revision:  1AA01113
Standards:
    Used: ATA-8-ACS revision 3b
    Supported: 7 6 5 4
Configuration:
    Logical        max    current
    cylinders    16383    16383
    heads        16    16
    sectors/track    63    63
    --
    CHS current addressable sectors:   16514064
    LBA    user addressable sectors:  268435455
    LBA48  user addressable sectors: 1953525168
    device size with M = 1024*1024:      953869 MBytes
    device size with M = 1000*1000:     1000204 MBytes (1000 GB)
Capabilities:
    LBA, IORDY(can be disabled)
    Queue depth: 32
    Standby timer values: spec'd by Standard, no device specific minimum
    R/W multiple sector transfer: Max = 16    Current = 16
    Advanced power management level: disabled
    Recommended acoustic management value: 254, current value: 0
    DMA: mdma0 mdma1 mdma2 udma0 udma1 udma2 udma3 udma4 udma5 *udma6 udma7
         Cycle time: min=120ns recommended=120ns
    PIO: pio0 pio1 pio2 pio3 pio4
         Cycle time: no flow control=120ns  IORDY flow control=120ns
Commands/features:
    Enabled    Supported:
       *    SMART feature set
            Security Mode feature set
       *    Power Management feature set
       *    Write cache
       *    Look-ahead
       *    Host Protected Area feature set
       *    WRITE_BUFFER command
       *    READ_BUFFER command
       *    NOP cmd
       *    DOWNLOAD_MICROCODE
            Advanced Power Management feature set
            Power-Up In Standby feature set
       *    SET_FEATURES required to spinup after power up
            SET_MAX security extension
            Automatic Acoustic Management feature set
       *    48-bit Address feature set
       *    Device Configuration Overlay feature set
       *    Mandatory FLUSH_CACHE
       *    FLUSH_CACHE_EXT
       *    SMART error logging
       *    SMART self-test
            Media Card Pass-Through
       *    General Purpose Logging feature set
       *    64-bit World wide name
       *    WRITE_UNCORRECTABLE_EXT command
       *    {READ,WRITE}_DMA_EXT_GPL commands
       *    Segmented DOWNLOAD_MICROCODE
       *    SATA-I signaling speed (1.5Gb/s)
       *    SATA-II signaling speed (3.0Gb/s)
       *    Native Command Queueing (NCQ)
       *    Host-initiated interface power management
       *    Phy event counters
       *    unknown 76[12]
            DMA Setup Auto-Activate optimization
            Device-initiated interface power management
       *    Software settings preservation
       *    SMART Command Transport (SCT) feature set
       *    SCT Long Sector Access (AC1)
       *    SCT LBA Segment Access (AC2)
       *    SCT Error Recovery Control (AC3)
       *    SCT Features Control (AC4)
       *    SCT Data Tables (AC5)
Security:
    Master password revision code = 65534
        supported
    not    enabled
    not    locked
        frozen
    not    expired: security count
        supported: enhanced erase
    176min for SECURITY ERASE UNIT. 176min for ENHANCED SECURITY ERASE UNIT.
Logical Unit WWN Device Identifier: 5000f0060c1361
    NAA        : 5
    IEEE OUI    : f0
    Unique ID    : 060c1361
Checksum: correct

 

Oba se mi zdají stejné. Chytrý z toho opět bohužel nejsem.

Co kdybych zkusil přidat do md0 znova ten sdb, resync, pak zkusil ty disky znova projet smartctl a pokud by některý hlásil chyby, tak s klidným svědomím vyměnil?

6.9.2009 14:07 Franta Hanzlik
Rozbalit Rozbalit vše Re: SW RAID1: umírá disk?

OK, jasně.

Ta nastavení jsou u obou stejná.

Než přidáš ten sdb2, stejně bych nejdřív mrknul do logu, proč jej OS vyfakoval, aby nebyl v horším stavu než ten sda. Jestli je na sdb1 swapák, tak md1 může být OK i proto, že se na něj (téměř) nic nezapisuje. Teoreticky v tom může mít pracky třeba i zdroj (když už jsou vzpomenuté MB, disk, kšandy), proto i otestování v jiném stroji může něco napovědět.

Jestliže je sdb2 offline, tak bych nejdříve otestoval ten, pak sdb2 fsck, na podívání jej montovat readonly.  Nemá cenu něco uspěchat, data bývaj cennější než pár minut času.

6.9.2009 14:40 Joe Doe | skóre: 5
Rozbalit Rozbalit vše Re: SW RAID1: umírá disk?

Teď koukám na /var/log/messages.0

Nejstarší zprávy, které by se mohly tohoto týkat, by mohly být:

Aug 28 17:37:18 junior kernel: [    5.685755] Driver 'sd' needs updating - please use bus_type methods
Aug 28 17:37:18 junior kernel: [    5.686035] sd 2:0:0:0: [sda] 1953525168 512-byte hardware sectors (1000205 MB)
Aug 28 17:37:18 junior kernel: [    5.686098] sd 2:0:0:0: [sda] Write Protect is off
Aug 28 17:37:18 junior kernel: [    5.686214] sd 2:0:0:0: [sda] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
Aug 28 17:37:18 junior kernel: [    5.686430] sd 2:0:0:0: [sda] 1953525168 512-byte hardware sectors (1000205 MB)
Aug 28 17:37:18 junior kernel: [    5.686490] sd 2:0:0:0: [sda] Write Protect is off
Aug 28 17:37:18 junior kernel: [    5.686605] sd 2:0:0:0: [sda] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
Aug 28 17:37:18 junior kernel: [    5.686619]  sda: sda1 sda2
Aug 28 17:37:18 junior kernel: [    5.702036] sd 2:0:0:0: [sda] Attached SCSI disk
Aug 28 17:37:18 junior kernel: [    5.702225] sd 3:0:0:0: [sdb] 1953525168 512-byte hardware sectors (1000205 MB)
Aug 28 17:37:18 junior kernel: [    5.702277] sd 3:0:0:0: [sdb] Write Protect is off
Aug 28 17:37:18 junior kernel: [    5.702372] sd 3:0:0:0: [sdb] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
Aug 28 17:37:18 junior kernel: [    5.702525] sd 3:0:0:0: [sdb] 1953525168 512-byte hardware sectors (1000205 MB)
Aug 28 17:37:18 junior kernel: [    5.702574] sd 3:0:0:0: [sdb] Write Protect is off
Aug 28 17:37:18 junior kernel: [    5.702669] sd 3:0:0:0: [sdb] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
Aug 28 17:37:18 junior kernel: [    5.702679]  sdb: sdb1 sdb2
Aug 28 17:37:18 junior kernel: [    5.706279] sd 3:0:0:0: [sdb] Attached SCSI disk
Aug 28 17:37:18 junior kernel: [    5.905934] md: md1 stopped.
Aug 28 17:37:18 junior kernel: [    5.913968] md: bind<sdb1>
Aug 28 17:37:18 junior kernel: [    5.915669] md: md0 stopped.
Aug 28 17:37:18 junior kernel: [    5.936680] md: bind<sdb2>
Aug 28 17:37:18 junior kernel: [    5.970445] md: md1 stopped.
Aug 28 17:37:18 junior kernel: [    5.970469] md: unbind<sdb1>
Aug 28 17:37:18 junior kernel: [    5.976346] md: export_rdev(sdb1)
Aug 28 17:37:18 junior kernel: [    5.997228] md: bind<sdb1>
Aug 28 17:37:18 junior kernel: [    5.997445] md: bind<sda1>
Aug 28 17:37:18 junior kernel: [    6.025640] raid1: raid set md1 active with 2 out of 2 mirrors
Aug 28 17:37:18 junior kernel: [    6.025849] md: md0 stopped.
Aug 28 17:37:18 junior kernel: [    6.025867] md: unbind<sdb2>
Aug 28 17:37:18 junior kernel: [    6.027336] md: export_rdev(sdb2)
Aug 28 17:37:18 junior kernel: [    6.050468] md: bind<sdb2>
Aug 28 17:37:18 junior kernel: [    6.050732] md: bind<sda2>
Aug 28 17:37:18 junior kernel: [    6.050799] md: kicking non-fresh sdb2 from array!
Aug 28 17:37:18 junior kernel: [    6.050816] md: unbind<sdb2>
Aug 28 17:37:18 junior kernel: [    6.063495] md: export_rdev(sdb2)
Aug 28 17:37:18 junior kernel: [    6.089617] raid1: raid set md0 active with 1 out of 2 mirrors
Aug 28 17:37:18 junior kernel: [    6.204081] PM: Starting manual resume from disk
Aug 28 17:37:18 junior kernel: [    6.262765] EXT3-fs: INFO: recovery required on readonly filesystem.
Aug 28 17:37:18 junior kernel: [    6.262774] EXT3-fs: write access will be enabled during recovery.
Aug 28 17:37:18 junior kernel: [    6.376186] kjournald starting.  Commit interval 5 seconds

Takže jsem si toho býval mohl všimnout možná už dříve než 28. srpna. Dřívější logy nemám (nebo je nevidím?). Každopádně to by mohlo vysvětlovat těch 17 dní rozdílu v hodnotě spinup. Nicméně to nevysvětluje, proč mi celou dobu počítač šlapal i s jedním diskem, ale teď mi hlásil už podruhé ty I/O chyby.

6.9.2009 14:57 Franta Hanzlik
Rozbalit Rozbalit vše Re: SW RAID1: umírá disk?

Asi máš rotování logů po týdnu. Pokud by byly starší, jmenovaly by se /var/log/messages.N (větší N == starší log), počet je dán nastavením logrotate.

Nicméně tohle znamená jen, že ten sdb2 už musel padnout (proč?) někdy před tímhle restartem. S tím testem sdb bych začal, sda se sice chová divně, ale na bezprostřední pád to nevypadá. A o stavu sdb je třeba se dozvědět více, SMART diagnostice důvěřuj, ale prověřuj ;)). Už jsem několikrát zažil, že u disku byly ve SMART datech nesmysly, nebo byl SMART vypnutý a neindikoval nic (ale to asi není tenhle případ).

6.9.2009 16:02 Michal Pěnka
Rozbalit Rozbalit vše Re: SW RAID1: umírá disk?

Tak právě doběhnul smartctl a shodou náhod jsem to omylem spustil nad sdb. Test vyšel bez chyb.

Rotaci logů mám, ale jen po .0, starší nejsou :( Dá se to někde jednoduše nastavit?

Teď asi zkusím ručně přidat tu sdb2 do md0. A uvidíme.

6.9.2009 16:12 Franta Hanzlik
Rozbalit Rozbalit vše Re: SW RAID1: umírá disk?

OK.

Nastavení rotace mám ve Fedoře v "/etc/logrotate.conf", možno upravit, tohle je default:

# rotate log files weekly
weekly

# keep 4 weeks worth of backlogs
rotate 4
 

6.9.2009 16:35 Michal Pěnka
Rozbalit Rozbalit vše Re: SW RAID1: umírá disk?

Díky, logování už jsem našel, mám to tam taky tak, jen jsem si nevšiml, že je to balené. Našel jsem 5. srpna, nicméně stejný problém (minimálně měsíc jsem si toho nevšiml!).

Tak teď sdb2 přidávám, resynchronizuje se obsah md0 z sda2 na sdb2. Vzhledem k tomu, jak je to velký disk, tak to bude trvat víc jak 3 hodiny.

Myslím si, že problém byl způsoben následovně::

  1. z nějakého důvodu se z md0 odebral sdb2
  2. pole md0 už od 5. srpna jelo na jeden disk - tedy sda2
  3. teď sda začína mít fyzické problémy (I/O), takže asi po čase přestává umožňovat čtení a zápis a proto je celý operační systém nedostupný
  • kdyby byl býval zapojen i sdb2, vůbec se to asi nedozvím (logy jak je vidět nečtu), protože by systém reagoval čtením a zápisem z tohoto disku a nahradil by plynule umírající sda

Doufám, že synchronizace dojede v pořádku a že se nepřenesou nějaká poškozená data. Každopádně pak nechám spuštěný dlouhý smartctl test nad sda a pokud bude reportovat chyby, budu ho reklamovat.

Ozvu se po synchronizaci a testování sda s výsledkem.

7.9.2009 07:23 Michal Pěnka
Rozbalit Rozbalit vše Re: SW RAID1: umírá disk?

Takže dnes jsem se probudil s kompletní hotovou synchronizací a testem sda.

Synchronizace proběhla v pořádku. Smartctl pro sdb nehlásilo chyby ani před resynchronizací, sda jsem jel přes noc. A chyby také žádné. Test proběhl v pořádku. Pořád mě ale znervózňují ty chyby, které jsem objevil už v začátku. Výpis chyb sda je zde:

smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model:     SAMSUNG HD103UJ
Serial Number:    S13PJ9AQC03115
Firmware Version: 1AA01113
User Capacity:    1 000 204 886 016 bytes
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   8
ATA Standard is:  ATA-8-ACS revision 3b
Local Time is:    Mon Sep  7 08:15:45 2009 CEST

==> WARNING: May need -F samsung or -F samsung2 enabled; see manual for details.

SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00)    Offline data collection activity
                    was never started.
                    Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0)    The previous self-test routine completed
                    without error or no self-test has ever
                    been run.
Total time to complete Offline
data collection:          (11471) seconds.
Offline data collection
capabilities:              (0x7b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003)    Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01)    Error logging supported.
                    General Purpose Logging supported.
Short self-test routine
recommended polling time:      (   2) minutes.
Extended self-test routine
recommended polling time:      ( 192) minutes.
Conveyance self-test routine
recommended polling time:      (  21) minutes.
SCT capabilities:            (0x003f)    SCT Status supported.
                    SCT Feature Control supported.
                    SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   100   100   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0007   076   076   011    Pre-fail  Always       -       8040
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       54
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   253   253   051    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0025   100   100   015    Pre-fail  Offline      -       10055
  9 Power_On_Hours          0x0032   099   099   000    Old_age   Always       -       6223
 10 Spin_Retry_Count        0x0033   100   100   051    Pre-fail  Always       -       0
 11 Calibration_Retry_Count 0x0012   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       54
 13 Read_Soft_Error_Rate    0x000e   100   100   000    Old_age   Always       -       0
183 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       6
184 Unknown_Attribute       0x0033   098   098   000    Pre-fail  Always       -       2
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   075   059   000    Old_age   Always       -       25 (Lifetime Min/Max 25/28)
194 Temperature_Celsius     0x0022   075   058   000    Old_age   Always       -       25 (Lifetime Min/Max 25/29)
195 Hardware_ECC_Recovered  0x001a   100   100   000    Old_age   Always       -       98013428
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   100   100   000    Old_age   Always       -       148
200 Multi_Zone_Error_Rate   0x000a   100   100   000    Old_age   Always       -       0
201 Soft_Read_Error_Rate    0x000a   100   100   000    Old_age   Always       -       0

SMART Error Log Version: 1
ATA Error Count: 6 (device log contains only the most recent five errors)
    CR = Command Register [HEX]
    FR = Features Register [HEX]
    SC = Sector Count Register [HEX]
    SN = Sector Number Register [HEX]
    CL = Cylinder Low Register [HEX]
    CH = Cylinder High Register [HEX]
    DH = Device/Head Register [HEX]
    DC = Device Command Register [HEX]
    ER = Error register [HEX]
    ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 6 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 3f eb 3d 8f e7  Error: ICRC, ABRT 63 sectors at LBA = 0x078f3deb = 126828011

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 00 2a 3d 8f e7 08      23:25:57.110  READ DMA
  c8 00 00 2a 3c 8f e7 08      23:25:57.090  READ DMA
  c8 00 00 2a 3b 8f e7 08      23:25:57.070  READ DMA
  c8 00 00 2a 3a 8f e7 08      23:25:57.050  READ DMA
  c8 00 00 2a 39 8f e7 08      23:25:57.030  READ DMA

Error 5 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 0f 53 f5 f9 e3  Error: ICRC, ABRT 15 sectors at LBA = 0x03f9f553 = 66712915

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 00 62 f4 f9 e3 08      07:24:22.840  READ DMA
  c8 00 10 d2 90 0b e4 08      07:24:22.790  READ DMA
  c8 00 f8 da 8f 0b e4 08      07:24:22.780  READ DMA
  c8 00 00 da 8e 0b e4 08      07:24:22.770  READ DMA
  ea 00 00 19 59 70 a0 08      07:24:22.750  FLUSH CACHE EXIT

Error 4 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  00 d0 00 00 00 00 a0   at LBA = 0x00000000 = 0

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ca 00 38 fa 4e 1b ed 08      00:48:39.890  WRITE DMA
  ca 00 08 f2 3e 1b ed 08      00:48:39.870  WRITE DMA
  ca 00 a0 4a 36 1b ed 08      00:48:39.870  WRITE DMA
  ca 00 08 82 24 1b ed 08      00:48:39.810  WRITE DMA
  ca 00 00 e2 15 1b ed 08      00:48:39.790  WRITE DMA

Error 3 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 53 7d 85 6c bf ec  Error: ABRT at LBA = 0x0cbf6c85 = 213871749

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ca 00 a8 5a 6c bf ec 08   6d+21:09:08.620  WRITE DMA
  ca 00 08 52 60 bf ec 08   6d+21:09:08.610  WRITE DMA
  ca 00 08 ea 3f bf ec 08   6d+21:09:08.550  WRITE DMA
  ca 00 08 82 1f bf ec 08   6d+21:09:08.480  WRITE DMA
  ca 00 08 1a ff be ec 08   6d+21:09:08.420  WRITE DMA

Error 2 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  00 d0 00 00 00 00 a0   at LBA = 0x00000000 = 0

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ca 00 08 e2 18 87 ec 08   4d+23:10:24.510  WRITE DMA
  ca 00 08 1a e4 86 ec 08   4d+23:10:24.460  WRITE DMA
  ca 00 d8 a2 c8 86 ec 08   4d+23:10:24.390  WRITE DMA
  ca 00 08 9a b4 86 ec 08   4d+23:10:24.370  WRITE DMA
  ca 00 50 32 94 86 ec 08   4d+23:10:24.370  WRITE DMA

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%      6216         -
# 2  Extended offline    Aborted by host               90%      6208         -
# 3  Short offline       Completed without error       00%      6207         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Mimochodem jsem zkoušel prohodit SATA konektory na desce (takže sda bylo v tu chvíli sdb a opačně) a ten samý disk (sériové číslo má na konci 15) hází po sysctl -a stále těch 6 stejných chyb. Takže by t o dle mého názoru nemuselo být řadičem. Dnes chci koupit úplně nové sata kabely, takže uvidíme.

Byly by tyto chyby podnět k reklamaci a výměně celého disku?

7.9.2009 07:27 Joe Doe | skóre: 5
Rozbalit Rozbalit vše Re: SW RAID1: umírá disk?

Jo a výpis po synchronizaci vypadá takto:

cat /proc/mdstat
Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]
md0 : active raid1 sdb2[1] sda2[0]
      975587200 blocks [2/2] [UU]
     
md1 : active raid1 sda1[0] sdb1[1]
      1172608 blocks [2/2] [UU]
     
unused devices: <none>

Takže je to snad v pořádku. Stejně si nedokážu vysvětlit, proč ten sdb2 z md0 vypadl...:(

Heron avatar 7.9.2009 11:35 Heron | skóre: 50 | blog: root_at_heron | Olomouc
Rozbalit Rozbalit vše Re: SW RAID1: umírá disk?
Mimochodem jsem zkoušel prohodit SATA konektory na desce (takže sda bylo v tu chvíli sdb a opačně) a ten samý disk (sériové číslo má na konci 15) hází po sysctl -a stále těch 6 stejných chyb.

Zřejmně smartctl -a. Ty smart chyby si pamatuje disk, tímto prohozením řadič neotestuješ.

A pamatuje si jich právě 6:

ATA Error Count: 6 (device log contains only the most recent five errors)

Jinak, mám úplně stejný disk s 9000 hodinami, můžu poskytnou smartctl statistiky pro porovnání, kdyby jsi měl zájem. Co se týče problému, těch 6 chyb bylo pokaždé na jiném sektoru disku. Kdyby ty sektory byly nečitelné/nezapisovatelné, rozhodně by tyto atributy nebyly nulové:

196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       0

I na základě svých (mám tři bezvadné WD disky s podobnými SATA chybami, všechny jedou po výměně kabelu déle než rok) zkušeností tipuji vadný SATA kabel. Kup co nejlepší (no jak to poznat :-() kabel a pak vyzkoušej badblocks v režimu pro čtení postupně nad oběma disky. Pokud to projde tak buď bez starostí.

8.9.2009 13:48 Joe Doe | skóre: 5
Rozbalit Rozbalit vše Re: SW RAID1: umírá disk?

Ahoj, díky za odpověď.

Vadný sata kabel by vysvětloval, proč jeden disk jede bez chyb a druhý s chybami, nebo spíš proč ten sda tenkrát zrušil ten OS, když jsem se na něj ani přes SSH nepřipojil....

Jak se pracuje s badblocks? Čtecí režim je bez parametrů? Takže by mělo stačit badblocks /dev/sda resp. badblocks /dev/sdb? Díky!

Heron avatar 8.9.2009 14:00 Heron | skóre: 50 | blog: root_at_heron | Olomouc
Rozbalit Rozbalit vše Re: SW RAID1: umírá disk?

Ano bez parametrů, můžeš si tam přidat parametr -s ať víš jak dlouho to bude trvat:

root@raid:/#badblocks -s /dev/sde
Checking for bad blocks (read-only test):          231808/      976762584

Výsledek, buď to napíše přímo vadné bloky (čísla sektorů), nebo se ve smartctl -a zvýší hodnota jednoho z těch tří atributů co jsem spal výše. Obojí by bylo na reklamaci disku.

8.9.2009 14:12 Joe Doe | skóre: 5
Rozbalit Rozbalit vše Re: SW RAID1: umírá disk?

Super, díky. Už to tam jede, cca desetinka procenta za 1 s, takže uvidíme. Zatím bez nového kabelu, jedu to přes ssh z práce :)

8.9.2009 14:14 Joe Doe | skóre: 5
Rozbalit Rozbalit vše Re: SW RAID1: umírá disk?

Houbelec, je to setinka za vteřinu, tak si asi pěkně počkám. Ale což...z předchozích akcí jsem zvyklý :)

Heron avatar 8.9.2009 14:40 Heron | skóre: 50 | blog: root_at_heron | Olomouc
Rozbalit Rozbalit vše Re: SW RAID1: umírá disk?
Za 4h by to mohlo být. Pokud se na tom serveru nebude pracovat.
9.9.2009 08:14 Joe Doe | skóre: 5
Rozbalit Rozbalit vše Re: SW RAID1: umírá disk?

Tak badblocks nevyhodil žádné chyby, a to ani u těch třech hodnot, cos posílal. A to jsem ještě ani nestihl vyměnit ten kabel.

Stejně mě ale znervózňují ty zprávy, které se stále dokola vypisují na obrazovku i do kern.log:

Sep  9 01:22:36 junior kernel: [202133.756057] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
Sep  9 01:22:46 junior kernel: [202133.756111] ata3.00: cmd 35/00:00:7a:52:af/00:04:10:00:00/e0 tag 0 dma 524288 out
Sep  9 01:22:46 junior kernel: [202133.756116]          res 40/00:0f:71:89:9b/84:00:40:00:00/e0 Emask 0x4 (timeout)
Sep  9 01:22:46 junior kernel: [202133.756204] ata3.00: status: { DRDY }
Sep  9 01:22:46 junior kernel: [202138.796026] ata3: link is slow to respond, please be patient (ready=0)
Sep  9 01:22:46 junior kernel: [202143.780026] ata3: device not ready (errno=-16), forcing hardreset
Sep  9 01:22:46 junior kernel: [202143.780045] ata3: soft resetting link
Sep  9 01:22:46 junior kernel: [202143.952364] ata3.00: configured for UDMA/133
Sep  9 01:22:46 junior kernel: [202143.952392] ata3: EH complete
Sep  9 01:22:46 junior kernel: [202143.957589] sd 2:0:0:0: [sda] 1953525168 512-byte hardware sectors (1000205 MB)
Sep  9 01:22:46 junior kernel: [202143.958952] sd 2:0:0:0: [sda] Write Protect is off
Sep  9 01:22:46 junior kernel: [202143.958962] sd 2:0:0:0: [sda] Mode Sense: 00 3a 00 00
Sep  9 01:22:46 junior kernel: [202143.970257] sd 2:0:0:0: [sda] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA

9.9.2009 08:49 trekker.dk | skóre: 71
Rozbalit Rozbalit vše Re: SW RAID1: umírá disk?
Jestli je vadný kabel, tak badblocks žádné chyby nevyhodí, protože disk je v pořádku. Co není v pořádku, je s největší pravděpodobností spojení mezi tím diskem a počítačem, proto se vypisují ty zprávy.
Quando omni flunkus moritati
9.9.2009 08:56 Joe Doe | skóre: 5
Rozbalit Rozbalit vše Re: SW RAID1: umírá disk?

Takže asi fakt ten kable...no už jsem ho včera koupil, ale namontuju ho tam až dneska po práci :D Díky za tipy.

25.9.2009 07:30 Joe Doe | skóre: 5
Rozbalit Rozbalit vše Re: SW RAID1: umírá disk?

Ahoj všem...tak jsem zpět s prosbou o radu. Výměna kabelů nepomohla.

Koupil jsem 2 nové sata kabely a po spuštění počítače jsem zjistil, že nedetekuje žádné disky. Takže jsem tam jeden nový nechal a druhý vyměnil za starý a hle - ono to jelo...(mimochodem teď tam mám asi 6 sata kabelů a různě jsem je kombinoval)...nicméně chyby to hlásí pořád:

[   84.446950] ata4.00: cmd 35/00:80:12:4e:8a/00:02:02:00:00/e0 tag 0 dma 327680 out
[   84.446955]          res 51/04:80:12:50:8a/04:00:02:00:00/e0 Emask 0x21 (host bus error)
[   84.447091] ata4.00: status: { DRDY ERR }
[   84.447144] ata4.00: error: { ABRT }
[   84.621152] ata4.00: configured for UDMA/133
[   84.621178] ata4: EH complete
[   84.625042] sd 3:0:0:0: [sdb] 1953525168 512-byte hardware sectors (1000205 MB)

Už mě nic nenapadá - nemůže to být deskou? Díky za nápady.

25.9.2009 09:00 pet
Rozbalit Rozbalit vše Re: SW RAID1: umírá disk?

Tak jsem si to cele přečetl. Na zakladě mnohaletých zkušeností s linuxovými sw raidy doporučuju:

a) často a pravidelně (=denně) kontrolovat, že raid se nerozpadl. Pokud se občas (rozhodně ne castěji než jednou za čtvrt roku) rozpadne, nechat zasynchronizovat, bývá to náhodná chyba.

b) pokud se rozpadá častěji, v logu se objevují podivné chyby a případně nejde zasynchronizovat, zjistit příčinu a ihned to opravit (jde o data).

Zásadní otázka: zůstáva závada na stále stejnem: a) disku, b) portu - konektoru řadiče, c) datovém kabelu, ....?

Ve Tvém případě typuji primárně na problém s napájením. A probém po výměně kabelů by mohl vzniknout i tak, že se při tom pohlo i s napajecimi kabely (veškerá elektronika je primárně o vodičích a kontaktech ;-). Ale také to mohou být konektory v MB, na disku, zdroji. V podstatě to může být kterákoli komponenta počítače nebo jeho okolí - třeba uvolněný drát do napajecí zásuvky ve zdi ;-) Ale to je už věštím z rozbité křišťálové koule (Btv. nemá někdo navíc nějakou lepší?).

Mno, tak jsem si to po sobě přečetl, a nevím jesti to nemám smazat, obávám se, že Tvůj problém to přímo neřeší :-( Prostě jen měnit komponentu po komponentě a sledovat co se děje.

25.9.2009 09:16 Joe Doe | skóre: 5
Rozbalit Rozbalit vše Re: SW RAID1: umírá disk?

Rozhodně díky za jakoukoliv radu. Na komponenty se chystám tento víkend, ikdyž vím, že to bude hrozně zdlouhavé.

Mimochodem zdroj by to mohl být. Před nedávnem mi odešel PicoPSU adaptér, tak jsem ho "provizorně" nahradil klasickým napájecím zdrojem - samozřejmě tam už zůstal. Ale bylo by mi divné, že když to utáhl 60W zdroj, tak že by to 300 W neutáhl. Odborník (bratr) mi potvrdil, že napětí v jednotlivých větvích je i s tímto provizorním zdrojem zajištěno. Takže nevím.

Teď se zrovna synchronizuje, protože přes noc proběhl kernel panic a to vyžadovalo tvrdý restart.Jinak to od minula drželo.

A k těm tvým otázkám: a) nevím, disky se zdají podle testů smartctl v pořádku, b) zkoušel jsem je nedávno prohazovat a chyby stále stejné, c) různě jsem je kombinoval (nové kabely, nový-starý, nový-jiný starý atp.) a zjistil jsem, že 2 nové kabely nejedou (neproběhne detekce disků při zavádění), což mě trochu znepokojuje. Fakt nechápu :-O

25.9.2009 09:23 R
Rozbalit Rozbalit vše Re: SW RAID1: umírá disk?
Vadne SATA kable su spravidla vadne od zaciatku. Len je dost divne, ze by si mal 6 zlych :D Moze to byt chyba aj konkretneho SATA portu alebo disku.

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267   www.czech-server.cz
© 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.