abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
eParkomat, startup z ČR, postoupil mezi finalisty evropského akcelerátoru ChallengeUp!
Robot na pivo mu otevřel dveře k opravdovému byznysu
Internet věcí: Propojený svět? Už se to blíží...
dnes 11:30 | Komunita

Bylo oznámeno, že bude proveden bezpečnostní audit zdrojových kódů open source softwaru pro implementaci virtuálních privátních sítí OpenVPN. Audit provede Matthew D. Green (blog), uznávaný kryptolog a profesor na Univerzitě Johnse Hopkinse. Auditována bude verze 2.4 (aktuálně RC 1, stabilní verze je 2.3.14). Audit bude financován společností Private Internet Access [reddit].

Ladislav Hagara | Komentářů: 0
dnes 06:00 | Komunita

Na YouTube byl publikován Blender Institute Reel 2016, ani ne dvouminutový sestřih z filmů, které vznikly za posledních 10 let díky Blender Institutu. V institutu aktuálně pracují na novém filmu Agent 327. Dění kolem filmu lze sledovat na Blender Cloudu. Videoukázka Agenta 327 z června letošního roku na YouTube.

Ladislav Hagara | Komentářů: 0
dnes 01:02 | Zajímavý článek

Minulý týden byly vydány verze 1.2.3 a 1.1.7 webového poštovního klienta Roundcube. V oznámení o vydání bylo zmíněno řešení bezpečnostního problému nalezeného společností RIPS a souvisejícího s voláním funkce mail() v PHP. Tento týden byly zveřejněny podrobnosti. Útočník mohl pomocí speciálně připraveného emailu spustit na serveru libovolný příkaz. Stejně, jak je popsáno v článku Exploit PHP’s mail() to get remote code execution z roku 2014.

Ladislav Hagara | Komentářů: 1
včera 16:00 | Nová verze

Byla vydána verze 0.98 svobodného nelineárního video editoru Pitivi. Z novinek lze zmínit například přizpůsobitelné klávesové zkratky. Videoukázka práce s nejnovější verzí Pitivi na YouTube.

Ladislav Hagara | Komentářů: 1
včera 15:00 | Zajímavý software

Stop motion je technika animace, při níž je reálný objekt mezi jednotlivými snímky ručně upravován a posouván o malé úseky, tak aby po spojení vyvolala animace dojem spojitosti. Jaký software lze pro stop motion použít na Linuxu? Článek na OMG! Ubuntu! představuje Heron Animation. Ten bohužel podporuje pouze webové kamery. Podpora digitálních zrcadlovek je začleněna například v programu qStopMotion.

Ladislav Hagara | Komentářů: 3
7.12. 21:21 | Nová verze Ladislav Hagara | Komentářů: 0
7.12. 11:44 | Zajímavý projekt

Na Indiegogo byla spuštěna kampaň na podporu herní mini konzole a multimediálního centra RetroEngine Sigma od Doyodo. Předobjednat ji lze již od 49 dolarů. Požadovaná částka 20 000 dolarů byla překonána již 6 krát. Majitelé mini konzole si budou moci zahrát hry pro Atari VCS 2600, Sega Genesis nebo NES. Předinstalováno bude multimediální centrum Kodi.

Ladislav Hagara | Komentářů: 2
7.12. 00:10 | Nová verze

Byla vydána verze 4.7 redakčního systému WordPress. Kódové označením Vaughan bylo vybráno na počest americké jazzové zpěvačky Sarah "Sassy" Vaughan. Z novinek lze zmínit například novou výchozí šablonu Twenty Seventeen, náhledy pdf souborů nebo WordPress REST API.

Ladislav Hagara | Komentářů: 10
6.12. 12:00 | Zajímavý projekt

Projekt Termbox umožňuje vyzkoušet si linuxové distribuce Ubuntu, Debian, Fedora, CentOS a Arch Linux ve webovém prohlížeči. Řešení je postaveno na projektu HyperContainer. Podrobnosti v často kladených dotazech (FAQ). Zdrojové kódy jsou k dispozici na GitHubu [reddit].

Ladislav Hagara | Komentářů: 27
6.12. 11:00 | Bezpečnostní upozornění

Byly zveřejněny informace o bezpečnostní chybě CVE-2016-8655 v Linuxu zneužitelné k lokální eskalaci práv. Chyba se dostala do linuxového jádra v srpnu 2011. V upstreamu byla opravena minulý týden [Hacker News].

Ladislav Hagara | Komentářů: 2
Kolik máte dat ve svém domovském adresáři na svém primárním osobním počítači?
 (32%)
 (24%)
 (29%)
 (7%)
 (5%)
 (3%)
Celkem 801 hlasů
 Komentářů: 50, poslední 29.11. 15:50
Rozcestník
Reklama

Dotaz: SW RAID 1 - kontrola disků a opětnovné připojení

Michnzee avatar 26.2.2014 12:43 Michnzee | skóre: 10 | Praha
SW RAID 1 - kontrola disků a opětnovné připojení
Přečteno: 893×
Dobrý den, potřeboval bych poradit ohledně softwarového raidu 1 na distibuci ubuntu skrze mdadm. Měl jsem v poli dva stejné disky (sda a sdb) ale obávám se že jeden umřel nebo se pole rozpojilo a momentálně je v degradovaném stavu. Viz:
root@server:~# mdadm -D /dev/md0
/dev/md0:
        Version : 1.2
  Creation Time : Wed Dec 12 22:38:19 2012
     Raid Level : raid1
     Array Size : 976598848 (931.36 GiB 1000.04 GB)
  Used Dev Size : 976598848 (931.36 GiB 1000.04 GB)
   Raid Devices : 2
  Total Devices : 1
    Persistence : Superblock is persistent

    Update Time : Wed Feb 26 12:31:48 2014
          State : clean, degraded
 Active Devices : 1
Working Devices : 1
 Failed Devices : 0
  Spare Devices : 0

           Name : server:0  (local to host server)
           UUID : 9bc23f7a:5c4b7602:77035a09:bc5f86ec
         Events : 1022720

    Number   Major   Minor   RaidDevice State
       0       8        2        0      active sync   /dev/sda2
       1       0        0        1      removed

Teď jsem trochu zmatený, jestli ten disk opravdu umřel nebo ne, protože když si vypíšu aktivní disky připojené v systému:
root@server:~# mdadm --query --examine /dev/sda
/dev/sda:
   MBR Magic : aa55
Partition[0] :        61440 sectors at         2048 (type 82)
Partition[1] :   1953460224 sectors at        63488 (type fd)
root@server:~# mdadm --query --examine /dev/sdb
/dev/sdb:
   MBR Magic : aa55
Partition[0] :        61440 sectors at         2048 (type 82)
Partition[1] :   1953460224 sectors at        63488 (type fd)

...tak se zdá že oba disky jsou v pořádku. Mohl bych se zeptat, jestli by mi někdo poradil nebo spíš vysvětlil co se stalo, popřípadě nenavedl jak vrátit oba disky do pole md0? Předem moc děkuji :)

Řešení dotazu:


Odpovědi

26.2.2014 12:58 Sten
Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
Co vypíše cat /proc/mdstat?
Michnzee avatar 26.2.2014 13:00 Michnzee | skóre: 10 | Praha
Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
Vypíše přesně toto:
root@server:~# cat /proc/mdstat
Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]
md0 : active raid1 sda2[0]
      976598848 blocks super 1.2 [2/1] [U_]

unused devices: < none>

Voty avatar 26.2.2014 14:23 Voty | skóre: 12 | blog: gemini
Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
Z výpisů to vypadá, že sda2 je OK a sdb2 se odpojilo. Dobré je teď zjistit důvod, proč se tak stalo. Asi bych začal tím, že bych se podíval do logu SMARTu (pro jistotu do obou disků), jestli tam není nějaká hláška.

smartctl --all /dev/sda

smartctl --all /dev/sdb
Jednu rozbil a tu druhou ztratil.
Michnzee avatar 26.2.2014 14:29 Michnzee | skóre: 10 | Praha
Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
Dobře, provedl jsem test obou disků viz:

Disk sda
root@server:~# smartctl --all /dev/sda
smartctl 5.41 2011-06-09 r3365 [i686-linux-3.2.0-29-generic-pae] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Device Model:     WDC WD10JPVT-75A1YT0
Serial Number:    WXC1E32DKAW3
LU WWN Device Id: 5 0014ee 65828493f
Firmware Version: 01.01A01
User Capacity:    1,000,204,886,016 bytes [1.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Wed Feb 26 14:24:54 2014 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (16980) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 185) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x70b5) SCT Status supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   179   177   021    Pre-fail  Always       -       2041
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       315
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   094   094   000    Old_age   Always       -       4522
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       315
191 G-Sense_Error_Rate      0x0032   001   001   000    Old_age   Always       -       23265
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       3
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       683
194 Temperature_Celsius     0x0022   109   099   000    Old_age   Always       -       38
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0
240 Head_Flying_Hours       0x0032   094   094   000    Old_age   Always       -       4507
241 Total_LBAs_Written      0x0032   200   200   000    Old_age   Always       -       3373451363
242 Total_LBAs_Read         0x0032   200   200   000    Old_age   Always       -       5252457189
254 Free_Fall_Sensor        0x0032   200   200   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.


A nyní disk sdb
root@server:~# smartctl --all /dev/sdb
smartctl 5.41 2011-06-09 r3365 [i686-linux-3.2.0-29-generic-pae] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Device Model:     WDC WD10JPVT-00A1YT0
Serial Number:    WD-WX21E42DN573
LU WWN Device Id: 5 0014ee 658413399
Firmware Version: 01.01A01
User Capacity:    1,000,204,886,016 bytes [1.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Wed Feb 26 14:25:10 2014 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (17880) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 195) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x70b5) SCT Status supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   177   175   021    Pre-fail  Always       -       2133
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       317
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   094   094   000    Old_age   Always       -       4522
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       317
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       5
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       752
194 Temperature_Celsius     0x0022   107   096   000    Old_age   Always       -       40
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Myslím, že oba dva disky vypadají v pořádku pokud se nepletu, žádné chybové hlášky v Error Log.
26.2.2014 16:33 Šangala | skóre: 56 | blog: Dutá Vrba - Wally
Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
Neprovedl jsi test, jen jsi vypsal údaje, test lze provést pomocí.
smartctl -t short /dev/sdb
nebo
smartctl -t long /dev/sdb
A ž test proběhne, vypíšeš si to znovu (průběh testu možná uvidíš ve výpisu, ale možná taky ne, nebo ti nepůjde výpis v průběhu testu udělat - je to dle daného disku).

To, že trpíš stihomamem, ještě neznamená, že po tobě nejdou. ⰞⰏⰉⰓⰀⰜⰉ ⰗⰞⰅⰜⰘ ⰈⰅⰏⰉ ⰒⰑⰎⰉⰁⰕⰅ ⰏⰉ ⰒⰓⰄⰅⰎ ·:⁖⁘⁙†
Řešení 1× (Michnzee (tazatel))
26.2.2014 14:50 dustin | skóre: 60 | blog: dustin
Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
Nejdřív bych to sdb2 zkusil zpět do pole přidat
mdadm /dev/md0 --add /dev/sdb2
V tom /proc/mdstat uvidíš, co to udělalo.

Máš aktuální /etc/mdadm/mdadm.conf a následně přegenerovaný initramfs, aby se do něj dostal ten aktuální mdadm.conf?
Michnzee avatar 26.2.2014 14:58 Michnzee | skóre: 10 | Praha
Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
Tak jsem disk vrátil do pole a provedl opět výpis aktuálních informací, viz níže:
root@server:~# mdadm /dev/md0 --add /dev/sdb2
mdadm: added /dev/sdb2
- disk úspěšně přidán, nyní kontrola pole:
root@server:~# cat /proc/mdstat
Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]
md0 : active raid1 sdb2[2] sda2[0]
      976598848 blocks super 1.2 [2/1] [U_]
      [>....................]  recovery =  0.6% (6702976/976598848) finish=173.5min speed=93163K/sec

unused devices: < none>
- po připojení začala obnova a ještě jeden detailní pohled:

root@server:~# mdadm -D /dev/md0
/dev/md0:
        Version : 1.2
  Creation Time : Wed Dec 12 22:38:19 2012
     Raid Level : raid1
     Array Size : 976598848 (931.36 GiB 1000.04 GB)
  Used Dev Size : 976598848 (931.36 GiB 1000.04 GB)
   Raid Devices : 2
  Total Devices : 2
    Persistence : Superblock is persistent

    Update Time : Wed Feb 26 14:53:12 2014
          State : clean, degraded, recovering
 Active Devices : 1
Working Devices : 2
 Failed Devices : 0
  Spare Devices : 1

 Rebuild Status : 0% complete

           Name : royalrk:0  (local to host royalrk)
           UUID : 9bc23f7a:5c4b7602:77035a09:bc5f86ec
         Events : 1024924

    Number   Major   Minor   RaidDevice State
       0       8        2        0      active sync   /dev/sda2
       2       8       18        1      spare rebuilding   /dev/sdb2
Takže vypadá to, že se zadařilo. Ale absolutně nechápu proč se tomu tak stalo, že se jeden disk odpojil a vypadl z pole. Dalo by se to nějak zpětně zjistit? ještě že jsem si toho všiml, občas tu kontrolu udělám - proto mě to zarazilo že je v poli defacto jen jeden disk. V každém případě bych chtěl poděkovat všem zainteresovaným za pomoc.
AraxoN avatar 26.2.2014 15:32 AraxoN | skóre: 45 | blog: slon_v_porcelane | Košice
Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
Do mdadm.conf si daj svoju mailovú adresu a spusti mdadm démon /etc/init.d/mdadm - po výpadku disku z poľa Ti hneď príde mail.

Ako bolo povedané nižšie, SMART testy môžu tiež odhaliť chybu. To sa dá zase zadať do smartd.conf a spustiť smartd démon /etc/init.d/smartd
A fine is a tax for doing wrong. A tax is a fine for doing well.
Jendа avatar 26.2.2014 16:18 Jendа | skóre: 73 | blog: Výlevníček | JO70FB
Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
Dalo by se to nějak zpětně zjistit?
Kernel nejspíš vypíše něco jako „media error“, „timeout“ nebo něco jiného. grepni syslog, messages a další (podle distribuce a nastavení rsyslogu) na název toho disku.
ještě že jsem si toho všiml, občas tu kontrolu udělám
Já dávám do cronu grep na "_" v /proc/mdstat s tím, že mi přijde e-mail, když tam je :-)
Michnzee avatar 26.2.2014 15:02 Michnzee | skóre: 10 | Praha
Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
Jinak jsem kontroloval v /etc/mdadm konfigurační soubor a přijde mi původní (s původními údaji) když jsem to pole vytvářel poprvé, někdy před rokem a něco...
Řešení 1× (Michnzee (tazatel))
26.2.2014 15:14 trubicoid2
Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
puvodni jako neaktualni? aktualni udelas takto: mdadm --detail --scan >> /etc/mdadm.conf a pak v editoru vyhodis stary radky

ze smartu je videt, ze disky jsou ok, ale zatim jsi nikdy jest nepoustel ani jeden smart test, tedy treba jendou mesicne je dobre udelat smartctl -t long /dev/sda, kontrola vysledku pomoci smartctl -a /dev/sda

no a pole se muze kontrolovat treba jednou tydne pomoci echo check >> /sys/block/md0/md/sync_action, az to dobehne, tak kouknes do cat /sys/block/md?/md/mismatch_cnt a mely by tam byt nuly

nejlip si obe kontroly dej do cronu
26.2.2014 15:26 dustin | skóre: 60 | blog: dustin
Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
Např. v debianu si ty checky pole hlídá balík mdadm sám (přidá si je do cronu).

Je potřeba nezapomenout na ten initramfs, aby bylo pole správně sestavené po restartu. Tipuji si, že restart se starým mdadm v initramfs byl důvod, proč tam to sdb není.
Michnzee avatar 26.2.2014 20:03 Michnzee | skóre: 10 | Praha
Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
Ten původní konfigurační soubor byl vytvořený během instalace (když jsem nastavoval sw raid) a od té doby se na to nesáhlo, ale typy disků jsem nemělnil, takže po vygenerování mdadm --detail --scan >> /etc/mdadm.conf konfigu se UUID shodovaly s tím původně vytvořeným.

Když se všechna data opět sesypala dohromady tak jsem stroj ještě jednou přezkoušel, restartoval a všechno najelo v pořádku - takže skvělá práce a mnohé díky za pomoc. Pro kontrolu přidávám aktuální stav pole:
root@server:~# mdadm -D /dev/md0
/dev/md0:
        Version : 1.2
  Creation Time : Wed Dec 12 22:38:19 2012
     Raid Level : raid1
     Array Size : 976598848 (931.36 GiB 1000.04 GB)
  Used Dev Size : 976598848 (931.36 GiB 1000.04 GB)
   Raid Devices : 2
  Total Devices : 2
    Persistence : Superblock is persistent

    Update Time : Wed Feb 26 19:53:34 2014
          State : clean
 Active Devices : 2
Working Devices : 2
 Failed Devices : 0
  Spare Devices : 0

           Name : server:0  (local to host server)
           UUID : 9bc23f7a:5c4b7602:77035a09:bc5f86ec
         Events : 1027647

    Number   Major   Minor   RaidDevice State
       0       8        2        0      active sync   /dev/sda2
       2       8       18        1      active sync   /dev/sdb2

...a také...
root@server:~# cat /proc/mdstat
Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]
md0 : active raid1 sdb2[2] sda2[0]
      976598848 blocks super 1.2 [2/2] [UU]

unused devices: < none>

Jinak jsem si dle vašich rad poupravil kontrolovací soubory a rozesílání emailů s notifikací, včetně automatického scanu přes cron - parádní záležitosti, ještě jednou moc díky!

Lukáš

26.2.2014 21:44 Šangala | skóre: 56 | blog: Dutá Vrba - Wally
Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
Testnul si si i jestli ti ty e-maily chodí ?;)
Když by mi vypadl disk z pole, tak bych se nespokojil jen s opětovným přidáním a resync-em, ale aspoň bych si provedl test disků (+ prohledání logů).
To, že trpíš stihomamem, ještě neznamená, že po tobě nejdou. ⰞⰏⰉⰓⰀⰜⰉ ⰗⰞⰅⰜⰘ ⰈⰅⰏⰉ ⰒⰑⰎⰉⰁⰕⰅ ⰏⰉ ⰒⰓⰄⰅⰎ ·:⁖⁘⁙†
Michnzee avatar 4.3.2014 13:10 Michnzee | skóre: 10 | Praha
Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
Kontrolu jsem samozřejmě provedl, výpis pro první disk zde:
root@server:~# smartctl -a /dev/sda
smartctl 5.41 2011-06-09 r3365 [i686-linux-3.2.0-29-generic-pae] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Device Model:     WDC WD10JPVT-75A1YT0
Serial Number:    WXC1E32DKAW3
LU WWN Device Id: 5 0014ee 65828493f
Firmware Version: 01.01A01
User Capacity:    1,000,204,886,016 bytes [1.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Tue Mar  4 11:00:14 2014 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (16980) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 185) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x70b5) SCT Status supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   180   177   021    Pre-fail  Always       -       1983
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       319
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   094   094   000    Old_age   Always       -       4579
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       319
191 G-Sense_Error_Rate      0x0032   001   001   000    Old_age   Always       -       23273
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       3
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       691
194 Temperature_Celsius     0x0022   109   099   000    Old_age   Always       -       38
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0
240 Head_Flying_Hours       0x0032   094   094   000    Old_age   Always       -       4564
241 Total_LBAs_Written      0x0032   200   200   000    Old_age   Always       -       3481264238
242 Total_LBAs_Read         0x0032   200   200   000    Old_age   Always       -       7280405995
254 Free_Fall_Sensor        0x0032   200   200   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%      4531         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

... a pro druhý disk - ten který jsme pak připojili zde:
root@server:~# smartctl -a /dev/sdb
smartctl 5.41 2011-06-09 r3365 [i686-linux-3.2.0-29-generic-pae] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Device Model:     WDC WD10JPVT-00A1YT0
Serial Number:    WD-WX21E42DN573
LU WWN Device Id: 5 0014ee 658413399
Firmware Version: 01.01A01
User Capacity:    1,000,204,886,016 bytes [1.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Tue Mar  4 13:08:30 2014 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      ( 243) Self-test routine in progress...
                                        30% of test remaining.
Total time to complete Offline
data collection:                (17880) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 195) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x70b5) SCT Status supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   177   175   021    Pre-fail  Always       -       2116
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       321
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   094   094   000    Old_age   Always       -       4581
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       321
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       5
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       761
194 Temperature_Celsius     0x0022   105   096   000    Old_age   Always       -       42
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Jinak natifikace nastavená :)

4.3.2014 14:52 Šangala | skóre: 56 | blog: Dutá Vrba - Wally
Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
Evidentně test na /dev/sdb neproběhl žádný, tedy nad /dev/sdb neprovedl ;).
To, že trpíš stihomamem, ještě neznamená, že po tobě nejdou. ⰞⰏⰉⰓⰀⰜⰉ ⰗⰞⰅⰜⰘ ⰈⰅⰏⰉ ⰒⰑⰎⰉⰁⰕⰅ ⰏⰉ ⰒⰓⰄⰅⰎ ·:⁖⁘⁙†
4.3.2014 23:41 Trubicoid
Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
30% remaining...

Zeptal se moc brzo no, co to rika ted?
5.3.2014 07:26 Šangala | skóre: 56 | blog: Dutá Vrba - Wally
Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
Pravda, přehlídl jsem to (lepší je to u Seagate, které to píšou přímo v tabulce výsledků).
A přidám sem: „jak to vypadá fčul?“
To, že trpíš stihomamem, ještě neznamená, že po tobě nejdou. ⰞⰏⰉⰓⰀⰜⰉ ⰗⰞⰅⰜⰘ ⰈⰅⰏⰉ ⰒⰑⰎⰉⰁⰕⰅ ⰏⰉ ⰒⰓⰄⰅⰎ ·:⁖⁘⁙†
Michnzee avatar 6.3.2014 19:09 Michnzee | skóre: 10 | Praha
Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
A jéje, omlouvám se, zde je aktuální:
root@server:~# smartctl -a /dev/sdb
smartctl 5.41 2011-06-09 r3365 [i686-linux-3.2.0-29-generic-pae] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Device Model:     WDC WD10JPVT-00A1YT0
Serial Number:    WD-WX21E42DN573
LU WWN Device Id: 5 0014ee 658413399
Firmware Version: 01.01A01
User Capacity:    1,000,204,886,016 bytes [1.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Thu Mar  6 19:07:23 2014 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (17880) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 195) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x70b5) SCT Status supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   177   175   021    Pre-fail  Always       -       2116
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       323
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   094   094   000    Old_age   Always       -       4618
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       323
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       5
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       765
194 Temperature_Celsius     0x0022   109   096   000    Old_age   Always       -       38
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%      4583         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

6.3.2014 19:25 Šangala | skóre: 56 | blog: Dutá Vrba - Wally
Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
To už je lepší ;), pro fčul ten disk vypadá OK (tedy podle SMART).
To, že trpíš stihomamem, ještě neznamená, že po tobě nejdou. ⰞⰏⰉⰓⰀⰜⰉ ⰗⰞⰅⰜⰘ ⰈⰅⰏⰉ ⰒⰑⰎⰉⰁⰕⰅ ⰏⰉ ⰒⰓⰄⰅⰎ ·:⁖⁘⁙†
Michnzee avatar 6.3.2014 19:36 Michnzee | skóre: 10 | Praha
Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
Perfektní! :) díky za kontrolu
26.2.2014 23:13 lertimir | skóre: 58 | blog: Par_slov
Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
Jak píše Šangala. Bez SMART testů bych si připojení neriskoval. Sám na většině disků provádím short testy v týdenních až 14 denních intervalech a long test v mesíčních až dvoumesíčních intervalech.
26.2.2014 21:38 Šangala | skóre: 56 | blog: Dutá Vrba - Wally
Rozbalit Rozbalit vše Re: SW RAID 1 - kontrola disků a opětnovné připojení
mismatch_cnt a mely by tam byt nuly
Pro zmatení nepřítele, pokud je na tom i swap (nebo možná i aktivně používaný soubor mapovaný do paměti) a bude se s ním aktivně pracovat v momentě check-u, tak tam ty nuly někdy/někde být nemusí.
To, že trpíš stihomamem, ještě neznamená, že po tobě nejdou. ⰞⰏⰉⰓⰀⰜⰉ ⰗⰞⰅⰜⰘ ⰈⰅⰏⰉ ⰒⰑⰎⰉⰁⰕⰅ ⰏⰉ ⰒⰓⰄⰅⰎ ·:⁖⁘⁙†

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267   www.czech-server.cz
© 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.