abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 04:55 | Nová verze

    OpenJS Foundation, oficiální projekt konsorcia Linux Foundation, oznámila vydání verze 22 otevřeného multiplatformního prostředí pro vývoj a běh síťových aplikací napsaných v JavaScriptu Node.js (Wikipedie). V říjnu se verze 22 stane novou aktivní LTS verzí. Podpora je plánována do dubna 2027.

    Ladislav Hagara | Komentářů: 0
    dnes 04:22 | Nová verze

    Byla vydána verze 8.2 open source virtualizační platformy Proxmox VE (Proxmox Virtual Environment, Wikipedie) založené na Debianu. Přehled novinek v poznámkách k vydání a v informačním videu. Zdůrazněn je průvodce migrací hostů z VMware ESXi do Proxmoxu.

    Ladislav Hagara | Komentářů: 0
    dnes 04:11 | Nová verze

    R (Wikipedie), programovací jazyk a prostředí určené pro statistickou analýzu dat a jejich grafické zobrazení, bylo vydáno ve verzi 4.4.0. Její kódové jméno je Puppy Cup.

    Ladislav Hagara | Komentářů: 0
    včera 22:44 | IT novinky

    IBM kupuje společnost HashiCorp (Terraform, Packer, Vault, Boundary, Consul, Nomad, Waypoint, Vagrant, …) za 6,4 miliardy dolarů, tj. 35 dolarů za akcii.

    Ladislav Hagara | Komentářů: 4
    včera 15:55 | Nová verze

    Byl vydán TrueNAS SCALE 24.04 “Dragonfish”. Přehled novinek této open source storage platformy postavené na Debianu v poznámkách k vydání.

    Ladislav Hagara | Komentářů: 0
    včera 13:44 | IT novinky

    Oznámeny byly nové Raspberry Pi Compute Module 4S. Vedle původní 1 GB varianty jsou nově k dispozici také varianty s 2 GB, 4 GB a 8 GB paměti. Compute Modules 4S mají na rozdíl od Compute Module 4 tvar a velikost Compute Module 3+ a předchozích. Lze tak provést snadný upgrade.

    Ladislav Hagara | Komentářů: 0
    včera 04:44 | Nová verze

    Po roce vývoje od vydání verze 1.24.0 byla vydána nová stabilní verze 1.26.0 webového serveru a reverzní proxy nginx (Wikipedie). Nová verze přináší řadu novinek. Podrobný přehled v souboru CHANGES-1.26.

    Ladislav Hagara | Komentářů: 0
    včera 04:33 | Nová verze

    Byla vydána nová verze 6.2 živé linuxové distribuce Tails (The Amnesic Incognito Live System), jež klade důraz na ochranu soukromí uživatelů a anonymitu. Přehled změn v příslušném seznamu. Tor Browser byl povýšen na verzi 13.0.14.

    Ladislav Hagara | Komentářů: 0
    včera 04:22 | Nová verze

    Byla vydána nová verze 30.0.0 frameworku pro vývoj multiplatformních desktopových aplikací pomocí JavaScriptu, HTML a CSS Electron (Wikipedie, GitHub). Chromium bylo aktualizováno na verzi 124.0.6367.49, V8 na verzi 12.4 a Node.js na verzi 20.11.1. Electron byl původně vyvíjen pro editor Atom pod názvem Atom Shell. Dnes je na Electronu postavena celá řada dalších aplikací.

    Ladislav Hagara | Komentářů: 2
    včera 04:11 | Nová verze

    Byla vydána nová verze 9.0.0 otevřeného emulátoru procesorů a virtualizačního nástroje QEMU (Wikipedie). Přispělo 220 vývojářů. Provedeno bylo více než 2 700 commitů. Přehled úprav a nových vlastností v seznamu změn.

    Ladislav Hagara | Komentářů: 0
    KDE Plasma 6
     (72%)
     (9%)
     (2%)
     (17%)
    Celkem 732 hlasů
     Komentářů: 4, poslední 6.4. 15:51
    Rozcestník

    Dotaz: SW RAID 1 - kontrola disků a opětnovné připojení

    Michnzee avatar 26.2.2014 12:43 Michnzee | skóre: 10 | Praha
    SW RAID 1 - kontrola disků a opětnovné připojení
    Přečteno: 1319×
    Dobrý den, potřeboval bych poradit ohledně softwarového raidu 1 na distibuci ubuntu skrze mdadm. Měl jsem v poli dva stejné disky (sda a sdb) ale obávám se že jeden umřel nebo se pole rozpojilo a momentálně je v degradovaném stavu. Viz:
    root@server:~# mdadm -D /dev/md0
    /dev/md0:
            Version : 1.2
      Creation Time : Wed Dec 12 22:38:19 2012
         Raid Level : raid1
         Array Size : 976598848 (931.36 GiB 1000.04 GB)
      Used Dev Size : 976598848 (931.36 GiB 1000.04 GB)
       Raid Devices : 2
      Total Devices : 1
        Persistence : Superblock is persistent
    
        Update Time : Wed Feb 26 12:31:48 2014
              State : clean, degraded
     Active Devices : 1
    Working Devices : 1
     Failed Devices : 0
      Spare Devices : 0
    
               Name : server:0  (local to host server)
               UUID : 9bc23f7a:5c4b7602:77035a09:bc5f86ec
             Events : 1022720
    
        Number   Major   Minor   RaidDevice State
           0       8        2        0      active sync   /dev/sda2
           1       0        0        1      removed
    
    
    Teď jsem trochu zmatený, jestli ten disk opravdu umřel nebo ne, protože když si vypíšu aktivní disky připojené v systému:
    root@server:~# mdadm --query --examine /dev/sda
    /dev/sda:
       MBR Magic : aa55
    Partition[0] :        61440 sectors at         2048 (type 82)
    Partition[1] :   1953460224 sectors at        63488 (type fd)
    root@server:~# mdadm --query --examine /dev/sdb
    /dev/sdb:
       MBR Magic : aa55
    Partition[0] :        61440 sectors at         2048 (type 82)
    Partition[1] :   1953460224 sectors at        63488 (type fd)
    
    
    ...tak se zdá že oba disky jsou v pořádku. Mohl bych se zeptat, jestli by mi někdo poradil nebo spíš vysvětlil co se stalo, popřípadě nenavedl jak vrátit oba disky do pole md0? Předem moc děkuji :)

    Řešení dotazu:


    Odpovědi

    26.2.2014 12:58 Sten
    Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
    Co vypíše cat /proc/mdstat?
    Michnzee avatar 26.2.2014 13:00 Michnzee | skóre: 10 | Praha
    Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
    Vypíše přesně toto:
    root@server:~# cat /proc/mdstat
    Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]
    md0 : active raid1 sda2[0]
          976598848 blocks super 1.2 [2/1] [U_]
    
    unused devices: < none>
    
    
    Voty avatar 26.2.2014 14:23 Voty | skóre: 12 | blog: gemini
    Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
    Z výpisů to vypadá, že sda2 je OK a sdb2 se odpojilo. Dobré je teď zjistit důvod, proč se tak stalo. Asi bych začal tím, že bych se podíval do logu SMARTu (pro jistotu do obou disků), jestli tam není nějaká hláška.

    smartctl --all /dev/sda

    smartctl --all /dev/sdb
    Jednu rozbil a tu druhou ztratil.
    Michnzee avatar 26.2.2014 14:29 Michnzee | skóre: 10 | Praha
    Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
    Dobře, provedl jsem test obou disků viz:

    Disk sda
    root@server:~# smartctl --all /dev/sda
    smartctl 5.41 2011-06-09 r3365 [i686-linux-3.2.0-29-generic-pae] (local build)
    Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net
    
    === START OF INFORMATION SECTION ===
    Device Model:     WDC WD10JPVT-75A1YT0
    Serial Number:    WXC1E32DKAW3
    LU WWN Device Id: 5 0014ee 65828493f
    Firmware Version: 01.01A01
    User Capacity:    1,000,204,886,016 bytes [1.00 TB]
    Sector Sizes:     512 bytes logical, 4096 bytes physical
    Device is:        Not in smartctl database [for details use: -P showall]
    ATA Version is:   8
    ATA Standard is:  Exact ATA specification draft version not indicated
    Local Time is:    Wed Feb 26 14:24:54 2014 CET
    SMART support is: Available - device has SMART capability.
    SMART support is: Enabled
    
    === START OF READ SMART DATA SECTION ===
    SMART overall-health self-assessment test result: PASSED
    
    General SMART Values:
    Offline data collection status:  (0x00) Offline data collection activity
                                            was never started.
                                            Auto Offline Data Collection: Disabled.
    Self-test execution status:      (   0) The previous self-test routine completed
                                            without error or no self-test has ever
                                            been run.
    Total time to complete Offline
    data collection:                (16980) seconds.
    Offline data collection
    capabilities:                    (0x7b) SMART execute Offline immediate.
                                            Auto Offline data collection on/off support.
                                            Suspend Offline collection upon new
                                            command.
                                            Offline surface scan supported.
                                            Self-test supported.
                                            Conveyance Self-test supported.
                                            Selective Self-test supported.
    SMART capabilities:            (0x0003) Saves SMART data before entering
                                            power-saving mode.
                                            Supports SMART auto save timer.
    Error logging capability:        (0x01) Error logging supported.
                                            General Purpose Logging supported.
    Short self-test routine
    recommended polling time:        (   2) minutes.
    Extended self-test routine
    recommended polling time:        ( 185) minutes.
    Conveyance self-test routine
    recommended polling time:        (   5) minutes.
    SCT capabilities:              (0x70b5) SCT Status supported.
                                            SCT Feature Control supported.
                                            SCT Data Table supported.
    
    SMART Attributes Data Structure revision number: 16
    Vendor Specific SMART Attributes with Thresholds:
    ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
      1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
      3 Spin_Up_Time            0x0027   179   177   021    Pre-fail  Always       -       2041
      4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       315
      5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
      7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
      9 Power_On_Hours          0x0032   094   094   000    Old_age   Always       -       4522
     10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
     11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
     12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       315
    191 G-Sense_Error_Rate      0x0032   001   001   000    Old_age   Always       -       23265
    192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       3
    193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       683
    194 Temperature_Celsius     0x0022   109   099   000    Old_age   Always       -       38
    196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
    197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
    198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
    199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
    200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0
    240 Head_Flying_Hours       0x0032   094   094   000    Old_age   Always       -       4507
    241 Total_LBAs_Written      0x0032   200   200   000    Old_age   Always       -       3373451363
    242 Total_LBAs_Read         0x0032   200   200   000    Old_age   Always       -       5252457189
    254 Free_Fall_Sensor        0x0032   200   200   000    Old_age   Always       -       0
    
    SMART Error Log Version: 1
    No Errors Logged
    
    SMART Self-test log structure revision number 1
    No self-tests have been logged.  [To run self-tests, use: smartctl -t]
    
    
    SMART Selective self-test log data structure revision number 1
     SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
        1        0        0  Not_testing
        2        0        0  Not_testing
        3        0        0  Not_testing
        4        0        0  Not_testing
        5        0        0  Not_testing
    Selective self-test flags (0x0):
      After scanning selected spans, do NOT read-scan remainder of disk.
    If Selective self-test is pending on power-up, resume after 0 minute delay.
    
    
    
    A nyní disk sdb
    root@server:~# smartctl --all /dev/sdb
    smartctl 5.41 2011-06-09 r3365 [i686-linux-3.2.0-29-generic-pae] (local build)
    Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net
    
    === START OF INFORMATION SECTION ===
    Device Model:     WDC WD10JPVT-00A1YT0
    Serial Number:    WD-WX21E42DN573
    LU WWN Device Id: 5 0014ee 658413399
    Firmware Version: 01.01A01
    User Capacity:    1,000,204,886,016 bytes [1.00 TB]
    Sector Sizes:     512 bytes logical, 4096 bytes physical
    Device is:        Not in smartctl database [for details use: -P showall]
    ATA Version is:   8
    ATA Standard is:  Exact ATA specification draft version not indicated
    Local Time is:    Wed Feb 26 14:25:10 2014 CET
    SMART support is: Available - device has SMART capability.
    SMART support is: Enabled
    
    === START OF READ SMART DATA SECTION ===
    SMART overall-health self-assessment test result: PASSED
    
    General SMART Values:
    Offline data collection status:  (0x00) Offline data collection activity
                                            was never started.
                                            Auto Offline Data Collection: Disabled.
    Self-test execution status:      (   0) The previous self-test routine completed
                                            without error or no self-test has ever
                                            been run.
    Total time to complete Offline
    data collection:                (17880) seconds.
    Offline data collection
    capabilities:                    (0x7b) SMART execute Offline immediate.
                                            Auto Offline data collection on/off support.
                                            Suspend Offline collection upon new
                                            command.
                                            Offline surface scan supported.
                                            Self-test supported.
                                            Conveyance Self-test supported.
                                            Selective Self-test supported.
    SMART capabilities:            (0x0003) Saves SMART data before entering
                                            power-saving mode.
                                            Supports SMART auto save timer.
    Error logging capability:        (0x01) Error logging supported.
                                            General Purpose Logging supported.
    Short self-test routine
    recommended polling time:        (   2) minutes.
    Extended self-test routine
    recommended polling time:        ( 195) minutes.
    Conveyance self-test routine
    recommended polling time:        (   5) minutes.
    SCT capabilities:              (0x70b5) SCT Status supported.
                                            SCT Feature Control supported.
                                            SCT Data Table supported.
    
    SMART Attributes Data Structure revision number: 16
    Vendor Specific SMART Attributes with Thresholds:
    ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
      1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
      3 Spin_Up_Time            0x0027   177   175   021    Pre-fail  Always       -       2133
      4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       317
      5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
      7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
      9 Power_On_Hours          0x0032   094   094   000    Old_age   Always       -       4522
     10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
     11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
     12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       317
    192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       5
    193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       752
    194 Temperature_Celsius     0x0022   107   096   000    Old_age   Always       -       40
    196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
    197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
    198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
    199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
    200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0
    
    SMART Error Log Version: 1
    No Errors Logged
    
    SMART Self-test log structure revision number 1
    No self-tests have been logged.  [To run self-tests, use: smartctl -t]
    
    
    SMART Selective self-test log data structure revision number 1
     SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
        1        0        0  Not_testing
        2        0        0  Not_testing
        3        0        0  Not_testing
        4        0        0  Not_testing
        5        0        0  Not_testing
    Selective self-test flags (0x0):
      After scanning selected spans, do NOT read-scan remainder of disk.
    If Selective self-test is pending on power-up, resume after 0 minute delay.
    
    
    Myslím, že oba dva disky vypadají v pořádku pokud se nepletu, žádné chybové hlášky v Error Log.
    26.2.2014 16:33 Šangala | skóre: 56 | blog: Dutá Vrba - Wally
    Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
    Neprovedl jsi test, jen jsi vypsal údaje, test lze provést pomocí.
    smartctl -t short /dev/sdb
    nebo
    smartctl -t long /dev/sdb
    A ž test proběhne, vypíšeš si to znovu (průběh testu možná uvidíš ve výpisu, ale možná taky ne, nebo ti nepůjde výpis v průběhu testu udělat - je to dle daného disku).

    To, že trpíš stihomamem, ještě neznamená, že po tobě nejdou. ⰞⰏⰉⰓⰀⰜⰉ ⰗⰞⰅⰜⰘ ⰈⰅⰏⰉ ⰒⰑⰎⰉⰁⰕⰅ ⰏⰉ ⰒⰓⰄⰅⰎ ·:⁖⁘⁙†
    Řešení 1× (Michnzee (tazatel))
    26.2.2014 14:50 dustin | skóre: 63 | blog: dustin
    Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
    Nejdřív bych to sdb2 zkusil zpět do pole přidat
    mdadm /dev/md0 --add /dev/sdb2
    V tom /proc/mdstat uvidíš, co to udělalo.

    Máš aktuální /etc/mdadm/mdadm.conf a následně přegenerovaný initramfs, aby se do něj dostal ten aktuální mdadm.conf?
    Michnzee avatar 26.2.2014 14:58 Michnzee | skóre: 10 | Praha
    Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
    Tak jsem disk vrátil do pole a provedl opět výpis aktuálních informací, viz níže:
    root@server:~# mdadm /dev/md0 --add /dev/sdb2
    mdadm: added /dev/sdb2
    
    - disk úspěšně přidán, nyní kontrola pole:
    root@server:~# cat /proc/mdstat
    Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]
    md0 : active raid1 sdb2[2] sda2[0]
          976598848 blocks super 1.2 [2/1] [U_]
          [>....................]  recovery =  0.6% (6702976/976598848) finish=173.5min speed=93163K/sec
    
    unused devices: < none>
    
    - po připojení začala obnova a ještě jeden detailní pohled:
    
    root@server:~# mdadm -D /dev/md0
    /dev/md0:
            Version : 1.2
      Creation Time : Wed Dec 12 22:38:19 2012
         Raid Level : raid1
         Array Size : 976598848 (931.36 GiB 1000.04 GB)
      Used Dev Size : 976598848 (931.36 GiB 1000.04 GB)
       Raid Devices : 2
      Total Devices : 2
        Persistence : Superblock is persistent
    
        Update Time : Wed Feb 26 14:53:12 2014
              State : clean, degraded, recovering
     Active Devices : 1
    Working Devices : 2
     Failed Devices : 0
      Spare Devices : 1
    
     Rebuild Status : 0% complete
    
               Name : royalrk:0  (local to host royalrk)
               UUID : 9bc23f7a:5c4b7602:77035a09:bc5f86ec
             Events : 1024924
    
        Number   Major   Minor   RaidDevice State
           0       8        2        0      active sync   /dev/sda2
           2       8       18        1      spare rebuilding   /dev/sdb2
    
    Takže vypadá to, že se zadařilo. Ale absolutně nechápu proč se tomu tak stalo, že se jeden disk odpojil a vypadl z pole. Dalo by se to nějak zpětně zjistit? ještě že jsem si toho všiml, občas tu kontrolu udělám - proto mě to zarazilo že je v poli defacto jen jeden disk. V každém případě bych chtěl poděkovat všem zainteresovaným za pomoc.
    AraxoN avatar 26.2.2014 15:32 AraxoN | skóre: 47 | blog: slon_v_porcelane | Košice
    Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
    Do mdadm.conf si daj svoju mailovú adresu a spusti mdadm démon /etc/init.d/mdadm - po výpadku disku z poľa Ti hneď príde mail.

    Ako bolo povedané nižšie, SMART testy môžu tiež odhaliť chybu. To sa dá zase zadať do smartd.conf a spustiť smartd démon /etc/init.d/smartd
    Jendа avatar 26.2.2014 16:18 Jendа | skóre: 78 | blog: Jenda | JO70FB
    Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
    Dalo by se to nějak zpětně zjistit?
    Kernel nejspíš vypíše něco jako „media error“, „timeout“ nebo něco jiného. grepni syslog, messages a další (podle distribuce a nastavení rsyslogu) na název toho disku.
    ještě že jsem si toho všiml, občas tu kontrolu udělám
    Já dávám do cronu grep na "_" v /proc/mdstat s tím, že mi přijde e-mail, když tam je :-)
    Michnzee avatar 26.2.2014 15:02 Michnzee | skóre: 10 | Praha
    Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
    Jinak jsem kontroloval v /etc/mdadm konfigurační soubor a přijde mi původní (s původními údaji) když jsem to pole vytvářel poprvé, někdy před rokem a něco...
    Řešení 1× (Michnzee (tazatel))
    26.2.2014 15:14 trubicoid2
    Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
    puvodni jako neaktualni? aktualni udelas takto: mdadm --detail --scan >> /etc/mdadm.conf a pak v editoru vyhodis stary radky

    ze smartu je videt, ze disky jsou ok, ale zatim jsi nikdy jest nepoustel ani jeden smart test, tedy treba jendou mesicne je dobre udelat smartctl -t long /dev/sda, kontrola vysledku pomoci smartctl -a /dev/sda

    no a pole se muze kontrolovat treba jednou tydne pomoci echo check >> /sys/block/md0/md/sync_action, az to dobehne, tak kouknes do cat /sys/block/md?/md/mismatch_cnt a mely by tam byt nuly

    nejlip si obe kontroly dej do cronu
    26.2.2014 15:26 dustin | skóre: 63 | blog: dustin
    Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
    Např. v debianu si ty checky pole hlídá balík mdadm sám (přidá si je do cronu).

    Je potřeba nezapomenout na ten initramfs, aby bylo pole správně sestavené po restartu. Tipuji si, že restart se starým mdadm v initramfs byl důvod, proč tam to sdb není.
    Michnzee avatar 26.2.2014 20:03 Michnzee | skóre: 10 | Praha
    Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
    Ten původní konfigurační soubor byl vytvořený během instalace (když jsem nastavoval sw raid) a od té doby se na to nesáhlo, ale typy disků jsem nemělnil, takže po vygenerování mdadm --detail --scan >> /etc/mdadm.conf konfigu se UUID shodovaly s tím původně vytvořeným.

    Když se všechna data opět sesypala dohromady tak jsem stroj ještě jednou přezkoušel, restartoval a všechno najelo v pořádku - takže skvělá práce a mnohé díky za pomoc. Pro kontrolu přidávám aktuální stav pole:
    root@server:~# mdadm -D /dev/md0
    /dev/md0:
            Version : 1.2
      Creation Time : Wed Dec 12 22:38:19 2012
         Raid Level : raid1
         Array Size : 976598848 (931.36 GiB 1000.04 GB)
      Used Dev Size : 976598848 (931.36 GiB 1000.04 GB)
       Raid Devices : 2
      Total Devices : 2
        Persistence : Superblock is persistent
    
        Update Time : Wed Feb 26 19:53:34 2014
              State : clean
     Active Devices : 2
    Working Devices : 2
     Failed Devices : 0
      Spare Devices : 0
    
               Name : server:0  (local to host server)
               UUID : 9bc23f7a:5c4b7602:77035a09:bc5f86ec
             Events : 1027647
    
        Number   Major   Minor   RaidDevice State
           0       8        2        0      active sync   /dev/sda2
           2       8       18        1      active sync   /dev/sdb2
    
    
    ...a také...
    root@server:~# cat /proc/mdstat
    Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]
    md0 : active raid1 sdb2[2] sda2[0]
          976598848 blocks super 1.2 [2/2] [UU]
    
    unused devices: < none>
    
    

    Jinak jsem si dle vašich rad poupravil kontrolovací soubory a rozesílání emailů s notifikací, včetně automatického scanu přes cron - parádní záležitosti, ještě jednou moc díky!

    Lukáš

    26.2.2014 21:44 Šangala | skóre: 56 | blog: Dutá Vrba - Wally
    Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
    Testnul si si i jestli ti ty e-maily chodí ?;)
    Když by mi vypadl disk z pole, tak bych se nespokojil jen s opětovným přidáním a resync-em, ale aspoň bych si provedl test disků (+ prohledání logů).
    To, že trpíš stihomamem, ještě neznamená, že po tobě nejdou. ⰞⰏⰉⰓⰀⰜⰉ ⰗⰞⰅⰜⰘ ⰈⰅⰏⰉ ⰒⰑⰎⰉⰁⰕⰅ ⰏⰉ ⰒⰓⰄⰅⰎ ·:⁖⁘⁙†
    Michnzee avatar 4.3.2014 13:10 Michnzee | skóre: 10 | Praha
    Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
    Kontrolu jsem samozřejmě provedl, výpis pro první disk zde:
    root@server:~# smartctl -a /dev/sda
    smartctl 5.41 2011-06-09 r3365 [i686-linux-3.2.0-29-generic-pae] (local build)
    Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net
    
    === START OF INFORMATION SECTION ===
    Device Model:     WDC WD10JPVT-75A1YT0
    Serial Number:    WXC1E32DKAW3
    LU WWN Device Id: 5 0014ee 65828493f
    Firmware Version: 01.01A01
    User Capacity:    1,000,204,886,016 bytes [1.00 TB]
    Sector Sizes:     512 bytes logical, 4096 bytes physical
    Device is:        Not in smartctl database [for details use: -P showall]
    ATA Version is:   8
    ATA Standard is:  Exact ATA specification draft version not indicated
    Local Time is:    Tue Mar  4 11:00:14 2014 CET
    SMART support is: Available - device has SMART capability.
    SMART support is: Enabled
    
    === START OF READ SMART DATA SECTION ===
    SMART overall-health self-assessment test result: PASSED
    
    General SMART Values:
    Offline data collection status:  (0x00) Offline data collection activity
                                            was never started.
                                            Auto Offline Data Collection: Disabled.
    Self-test execution status:      (   0) The previous self-test routine completed
                                            without error or no self-test has ever
                                            been run.
    Total time to complete Offline
    data collection:                (16980) seconds.
    Offline data collection
    capabilities:                    (0x7b) SMART execute Offline immediate.
                                            Auto Offline data collection on/off support.
                                            Suspend Offline collection upon new
                                            command.
                                            Offline surface scan supported.
                                            Self-test supported.
                                            Conveyance Self-test supported.
                                            Selective Self-test supported.
    SMART capabilities:            (0x0003) Saves SMART data before entering
                                            power-saving mode.
                                            Supports SMART auto save timer.
    Error logging capability:        (0x01) Error logging supported.
                                            General Purpose Logging supported.
    Short self-test routine
    recommended polling time:        (   2) minutes.
    Extended self-test routine
    recommended polling time:        ( 185) minutes.
    Conveyance self-test routine
    recommended polling time:        (   5) minutes.
    SCT capabilities:              (0x70b5) SCT Status supported.
                                            SCT Feature Control supported.
                                            SCT Data Table supported.
    
    SMART Attributes Data Structure revision number: 16
    Vendor Specific SMART Attributes with Thresholds:
    ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
      1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
      3 Spin_Up_Time            0x0027   180   177   021    Pre-fail  Always       -       1983
      4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       319
      5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
      7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
      9 Power_On_Hours          0x0032   094   094   000    Old_age   Always       -       4579
     10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
     11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
     12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       319
    191 G-Sense_Error_Rate      0x0032   001   001   000    Old_age   Always       -       23273
    192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       3
    193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       691
    194 Temperature_Celsius     0x0022   109   099   000    Old_age   Always       -       38
    196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
    197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
    198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
    199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
    200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0
    240 Head_Flying_Hours       0x0032   094   094   000    Old_age   Always       -       4564
    241 Total_LBAs_Written      0x0032   200   200   000    Old_age   Always       -       3481264238
    242 Total_LBAs_Read         0x0032   200   200   000    Old_age   Always       -       7280405995
    254 Free_Fall_Sensor        0x0032   200   200   000    Old_age   Always       -       0
    
    SMART Error Log Version: 1
    No Errors Logged
    
    SMART Self-test log structure revision number 1
    Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
    # 1  Extended offline    Completed without error       00%      4531         -
    
    SMART Selective self-test log data structure revision number 1
     SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
        1        0        0  Not_testing
        2        0        0  Not_testing
        3        0        0  Not_testing
        4        0        0  Not_testing
        5        0        0  Not_testing
    Selective self-test flags (0x0):
      After scanning selected spans, do NOT read-scan remainder of disk.
    If Selective self-test is pending on power-up, resume after 0 minute delay.
    
    
    ... a pro druhý disk - ten který jsme pak připojili zde:
    root@server:~# smartctl -a /dev/sdb
    smartctl 5.41 2011-06-09 r3365 [i686-linux-3.2.0-29-generic-pae] (local build)
    Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net
    
    === START OF INFORMATION SECTION ===
    Device Model:     WDC WD10JPVT-00A1YT0
    Serial Number:    WD-WX21E42DN573
    LU WWN Device Id: 5 0014ee 658413399
    Firmware Version: 01.01A01
    User Capacity:    1,000,204,886,016 bytes [1.00 TB]
    Sector Sizes:     512 bytes logical, 4096 bytes physical
    Device is:        Not in smartctl database [for details use: -P showall]
    ATA Version is:   8
    ATA Standard is:  Exact ATA specification draft version not indicated
    Local Time is:    Tue Mar  4 13:08:30 2014 CET
    SMART support is: Available - device has SMART capability.
    SMART support is: Enabled
    
    === START OF READ SMART DATA SECTION ===
    SMART overall-health self-assessment test result: PASSED
    
    General SMART Values:
    Offline data collection status:  (0x00) Offline data collection activity
                                            was never started.
                                            Auto Offline Data Collection: Disabled.
    Self-test execution status:      ( 243) Self-test routine in progress...
                                            30% of test remaining.
    Total time to complete Offline
    data collection:                (17880) seconds.
    Offline data collection
    capabilities:                    (0x7b) SMART execute Offline immediate.
                                            Auto Offline data collection on/off support.
                                            Suspend Offline collection upon new
                                            command.
                                            Offline surface scan supported.
                                            Self-test supported.
                                            Conveyance Self-test supported.
                                            Selective Self-test supported.
    SMART capabilities:            (0x0003) Saves SMART data before entering
                                            power-saving mode.
                                            Supports SMART auto save timer.
    Error logging capability:        (0x01) Error logging supported.
                                            General Purpose Logging supported.
    Short self-test routine
    recommended polling time:        (   2) minutes.
    Extended self-test routine
    recommended polling time:        ( 195) minutes.
    Conveyance self-test routine
    recommended polling time:        (   5) minutes.
    SCT capabilities:              (0x70b5) SCT Status supported.
                                            SCT Feature Control supported.
                                            SCT Data Table supported.
    
    SMART Attributes Data Structure revision number: 16
    Vendor Specific SMART Attributes with Thresholds:
    ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
      1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
      3 Spin_Up_Time            0x0027   177   175   021    Pre-fail  Always       -       2116
      4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       321
      5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
      7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
      9 Power_On_Hours          0x0032   094   094   000    Old_age   Always       -       4581
     10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
     11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
     12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       321
    192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       5
    193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       761
    194 Temperature_Celsius     0x0022   105   096   000    Old_age   Always       -       42
    196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
    197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
    198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
    199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
    200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0
    
    SMART Error Log Version: 1
    No Errors Logged
    
    SMART Self-test log structure revision number 1
    No self-tests have been logged.  [To run self-tests, use: smartctl -t]
    
    
    SMART Selective self-test log data structure revision number 1
     SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
        1        0        0  Not_testing
        2        0        0  Not_testing
        3        0        0  Not_testing
        4        0        0  Not_testing
        5        0        0  Not_testing
    Selective self-test flags (0x0):
      After scanning selected spans, do NOT read-scan remainder of disk.
    If Selective self-test is pending on power-up, resume after 0 minute delay.
    
    
    Jinak natifikace nastavená :)

    4.3.2014 14:52 Šangala | skóre: 56 | blog: Dutá Vrba - Wally
    Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
    Evidentně test na /dev/sdb neproběhl žádný, tedy nad /dev/sdb neprovedl ;).
    To, že trpíš stihomamem, ještě neznamená, že po tobě nejdou. ⰞⰏⰉⰓⰀⰜⰉ ⰗⰞⰅⰜⰘ ⰈⰅⰏⰉ ⰒⰑⰎⰉⰁⰕⰅ ⰏⰉ ⰒⰓⰄⰅⰎ ·:⁖⁘⁙†
    4.3.2014 23:41 Trubicoid
    Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
    30% remaining...

    Zeptal se moc brzo no, co to rika ted?
    5.3.2014 07:26 Šangala | skóre: 56 | blog: Dutá Vrba - Wally
    Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
    Pravda, přehlídl jsem to (lepší je to u Seagate, které to píšou přímo v tabulce výsledků).
    A přidám sem: „jak to vypadá fčul?“
    To, že trpíš stihomamem, ještě neznamená, že po tobě nejdou. ⰞⰏⰉⰓⰀⰜⰉ ⰗⰞⰅⰜⰘ ⰈⰅⰏⰉ ⰒⰑⰎⰉⰁⰕⰅ ⰏⰉ ⰒⰓⰄⰅⰎ ·:⁖⁘⁙†
    Michnzee avatar 6.3.2014 19:09 Michnzee | skóre: 10 | Praha
    Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
    A jéje, omlouvám se, zde je aktuální:
    root@server:~# smartctl -a /dev/sdb
    smartctl 5.41 2011-06-09 r3365 [i686-linux-3.2.0-29-generic-pae] (local build)
    Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net
    
    === START OF INFORMATION SECTION ===
    Device Model:     WDC WD10JPVT-00A1YT0
    Serial Number:    WD-WX21E42DN573
    LU WWN Device Id: 5 0014ee 658413399
    Firmware Version: 01.01A01
    User Capacity:    1,000,204,886,016 bytes [1.00 TB]
    Sector Sizes:     512 bytes logical, 4096 bytes physical
    Device is:        Not in smartctl database [for details use: -P showall]
    ATA Version is:   8
    ATA Standard is:  Exact ATA specification draft version not indicated
    Local Time is:    Thu Mar  6 19:07:23 2014 CET
    SMART support is: Available - device has SMART capability.
    SMART support is: Enabled
    
    === START OF READ SMART DATA SECTION ===
    SMART overall-health self-assessment test result: PASSED
    
    General SMART Values:
    Offline data collection status:  (0x00) Offline data collection activity
                                            was never started.
                                            Auto Offline Data Collection: Disabled.
    Self-test execution status:      (   0) The previous self-test routine completed
                                            without error or no self-test has ever
                                            been run.
    Total time to complete Offline
    data collection:                (17880) seconds.
    Offline data collection
    capabilities:                    (0x7b) SMART execute Offline immediate.
                                            Auto Offline data collection on/off support.
                                            Suspend Offline collection upon new
                                            command.
                                            Offline surface scan supported.
                                            Self-test supported.
                                            Conveyance Self-test supported.
                                            Selective Self-test supported.
    SMART capabilities:            (0x0003) Saves SMART data before entering
                                            power-saving mode.
                                            Supports SMART auto save timer.
    Error logging capability:        (0x01) Error logging supported.
                                            General Purpose Logging supported.
    Short self-test routine
    recommended polling time:        (   2) minutes.
    Extended self-test routine
    recommended polling time:        ( 195) minutes.
    Conveyance self-test routine
    recommended polling time:        (   5) minutes.
    SCT capabilities:              (0x70b5) SCT Status supported.
                                            SCT Feature Control supported.
                                            SCT Data Table supported.
    
    SMART Attributes Data Structure revision number: 16
    Vendor Specific SMART Attributes with Thresholds:
    ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
      1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
      3 Spin_Up_Time            0x0027   177   175   021    Pre-fail  Always       -       2116
      4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       323
      5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
      7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
      9 Power_On_Hours          0x0032   094   094   000    Old_age   Always       -       4618
     10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
     11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
     12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       323
    192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       5
    193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       765
    194 Temperature_Celsius     0x0022   109   096   000    Old_age   Always       -       38
    196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
    197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
    198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
    199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
    200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0
    
    SMART Error Log Version: 1
    No Errors Logged
    
    SMART Self-test log structure revision number 1
    Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
    # 1  Extended offline    Completed without error       00%      4583         -
    
    SMART Selective self-test log data structure revision number 1
     SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
        1        0        0  Not_testing
        2        0        0  Not_testing
        3        0        0  Not_testing
        4        0        0  Not_testing
        5        0        0  Not_testing
    Selective self-test flags (0x0):
      After scanning selected spans, do NOT read-scan remainder of disk.
    If Selective self-test is pending on power-up, resume after 0 minute delay.
    
    
    6.3.2014 19:25 Šangala | skóre: 56 | blog: Dutá Vrba - Wally
    Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
    To už je lepší ;), pro fčul ten disk vypadá OK (tedy podle SMART).
    To, že trpíš stihomamem, ještě neznamená, že po tobě nejdou. ⰞⰏⰉⰓⰀⰜⰉ ⰗⰞⰅⰜⰘ ⰈⰅⰏⰉ ⰒⰑⰎⰉⰁⰕⰅ ⰏⰉ ⰒⰓⰄⰅⰎ ·:⁖⁘⁙†
    Michnzee avatar 6.3.2014 19:36 Michnzee | skóre: 10 | Praha
    Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
    Perfektní! :) díky za kontrolu
    26.2.2014 23:13 lertimir | skóre: 64 | blog: Par_slov
    Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
    Jak píše Šangala. Bez SMART testů bych si připojení neriskoval. Sám na většině disků provádím short testy v týdenních až 14 denních intervalech a long test v mesíčních až dvoumesíčních intervalech.
    26.2.2014 21:38 Šangala | skóre: 56 | blog: Dutá Vrba - Wally
    Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
    mismatch_cnt a mely by tam byt nuly
    Pro zmatení nepřítele, pokud je na tom i swap (nebo možná i aktivně používaný soubor mapovaný do paměti) a bude se s ním aktivně pracovat v momentě check-u, tak tam ty nuly někdy/někde být nemusí.
    To, že trpíš stihomamem, ještě neznamená, že po tobě nejdou. ⰞⰏⰉⰓⰀⰜⰉ ⰗⰞⰅⰜⰘ ⰈⰅⰏⰉ ⰒⰑⰎⰉⰁⰕⰅ ⰏⰉ ⰒⰓⰄⰅⰎ ·:⁖⁘⁙†

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.