abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
eParkomat, startup z ČR, postoupil mezi finalisty evropského akcelerátoru ChallengeUp!
Robot na pivo mu otevřel dveře k opravdovému byznysu
Internet věcí: Propojený svět? Už se to blíží...
včera 22:44 | Komunita

Joinup informuje, že Mnichov používá open source groupware Kolab. V srpnu byl dokončen dvouletý přechod na toto řešení. V provozu je asi 60 000 poštovních schránek. Nejenom Kolabu se věnoval Georg Greve ve své přednášce Open Source: the future for the European institutions (SlideShare) na konferenci DIGITEC 2016, jež proběhla v úterý 29. listopadu v Bruselu. Videozáznam přednášek z hlavního sálu je ke zhlédnutí na Livestreamu.

Ladislav Hagara | Komentářů: 1
včera 15:30 | Zajímavý projekt

Společnost Jolla oznámila v příspěvku Case study: Sailfish Watch na svém blogu, že naportovala Sailfish OS na chytré hodinky. Využila a inspirovala se otevřeným operačním systémem pro chytré hodinky AsteroidOS. Použita je knihovna libhybris. Ukázka ovládání hodinek na YouTube.

Ladislav Hagara | Komentářů: 5
včera 14:15 | Nová verze

Byla vydána verze 7.1.0 skriptovacího jazyka PHP používaného zejména k vývoji dynamických webových stránek. Jedná se o první stabilní verzi nejnovější větvě 7.1. Přehled novinek v dokumentaci. Podrobnosti v ChangeLogu. K dispozici je také příručka pro přechod z PHP 7.0.x na PHP 7.1.x.

Ladislav Hagara | Komentářů: 0
včera 12:55 | Nová verze

Google Chrome 55 byl prohlášen za stabilní. Nejnovější stabilní verze 55.0.2883.75 tohoto webového prohlížeče přináší řadu oprav a vylepšení (YouTube). Opraveno bylo také 36 bezpečnostních chyb. Mariusz Mlynski si například vydělal 22 500 dolarů za 3 nahlášené chyby (Universal XSS in Blink).

Ladislav Hagara | Komentářů: 4
včera 11:55 | Pozvánky

Máte rádi svobodný software a hardware nebo se o nich chcete něco dozvědět? Přijďte na 135. sraz spolku OpenAlt, který se bude konat ve čtvrtek 8. prosince od 18:00 v Radegastovně Perón (Stroupežnického 20, Praha 5). Sraz bude tentokrát tématický. Bude retro! K vidění budou přístroje jako Psion 5mx nebo Palm Z22. Ze svobodného hardwaru pak Openmoko nebo čtečka WikiReader. Přijďte se i vy pochlubit svými legendami, nebo alespoň na pivo. Moderní hardware má vstup samozřejmě také povolen.

xkucf03 | Komentářů: 0
včera 00:10 | Nová verze

Byla vydána verze 3.2 svobodného systému pro detekci a prevenci průniků a monitorování bezpečnosti počítačových sítí Suricata. Z novinek lze zmínit například podporu protokolů DNP3 a CIP/ENIP, vylepšenou podporu TLS a samozřejmě také aktualizovanou dokumentaci.

Ladislav Hagara | Komentářů: 0
1.12. 21:00 | Nová verze

Byla vydána beta verze Linux Mintu 18.1 s kódovým jménem Serena. Na blogu Linux Mintu jsou hned dvě oznámení. První o vydání Linux Mintu s prostředím MATE a druhé o vydání Linux Mintu s prostředím Cinnamon. Stejným způsobem jsou rozděleny také poznámky k vydání (MATE, Cinnamon) a přehled novinek s náhledy (MATE, Cinnamon). Linux Mint 18.1 bude podporován až do roku 2021.

Ladislav Hagara | Komentářů: 0
1.12. 16:42 | Nová verze

Byl vydán Devuan Jessie 1.0 Beta 2. Jedná se o druhou beta verzi forku Debianu bez systemd představeného v listopadu 2014 (zprávička). První beta verze byla vydána v dubnu letošního roku (zprávička). Jedna z posledních přednášek věnovaných Devuanu proběhla v listopadu na konferenci FSCONS 2016 (YouTube, pdf).

Ladislav Hagara | Komentářů: 0
1.12. 15:16 | Komunita

Na GOG.com začal zimní výprodej. Řada zlevněných her běží oficiálně také na Linuxu. Hru Neverwinter Nights Diamond lze dva dny získat zdarma. Hra dle stránek GOG.com na Linuxu neběží. Pomocí návodu ji lze ale rozběhnout také na Linuxu [Gaming On Linux].

Ladislav Hagara | Komentářů: 1
1.12. 13:14 | Bezpečnostní upozornění

Byla vydána verze 2.7.1 živé linuxové distribuce Tails (The Amnesic Incognito Live System), jež klade důraz na ochranu soukromí uživatelů a anonymitu. Řešeno je několik bezpečnostních problémů. Aktualizován byl především Tor Browser na verzi 6.0.7. Tor Browser je postaven na Firefoxu ESR (Extended Support Release) a právě ve Firefoxu byla nalezena a opravena vážná bezpečnostní chyba MFSA 2016-92 (CVE-2016-9079, Firefox SVG Animation

… více »
Ladislav Hagara | Komentářů: 0
Kolik máte dat ve svém domovském adresáři na svém primárním osobním počítači?
 (32%)
 (24%)
 (29%)
 (7%)
 (5%)
 (3%)
Celkem 759 hlasů
 Komentářů: 50, poslední 29.11. 15:50
Rozcestník
Reklama

Dotaz: CentOS 5.3, RAID1, neustálé SATA chyby DRDY ERR

2.10.2010 22:41 Spyboy
CentOS 5.3, RAID1, neustálé SATA chyby DRDY ERR
Přečteno: 472×
Mám tu zakletý server:

Před cca rokem a půl jsem umístil do datacentra nový Supermicro server s 4x 500 GB WD disky. Server využívám pro OpenVZ virtualizaci na CentOS 5.3 (ovzkernel 2.6.18).

Přibližně po půl roce se začaly na jednom z disků objevovat media error chyby. Pro jistotu jsem vyměnil disk. Jenže po pár měsících "odešel" pro změnu druhý (stejné chyby). Takto došlo celkem k dvojnásobné výměně sda a sdb disků, které mám v RAID1 poli. Sdc a sdd mám pro zálohy a v RAIDu nejsou - s nimi problémy nemám.

Vždy se frekvence chyb zvyšovala, systém následně vyhodil jeden z disků z RAIDu a po chvíli ten zbylý hodil do read-only módu. Po výměně disku a resyncu RAIDu vše jelo zase třeba tři měsíce bez problému.

Situaci jsem řešil s Abacusem, dodavatelem serveru, kde po několikadenním testování nezjistili žádný problém. To samé s disky. Mezitím jsem si pronajal dedikovaný server (stejný typ a konfigurace) a zastrčil do něj disky z původního a vše opět jelo. Na čas. Po tomto jsem HW chybu vyloučil.

("Původní" server s "vadnými" disky mám nyní umístěný jinde a žádné problémy nejsou.)

V současnosti se doba od resyncu RAIDu po výskyt chyb a následné rozpadnutí RAIDu snížila na několik dní. Googluju, procházím diskuze, ale nenašel jsem nic, co bych nezkoušel, nebo bylo na první pohled úplně zcestné.

Zkoušel jsem upgrade kernelu (v rámci větve 2.6.18 - novější stable ovzkernelu není k dispozici), bootovat s acpi=off, acpi=noirq, noapic, vypínal jsem irqbalance, vypínal NCQ, disky jsou nové a v pořádku (smart), nepřehřívají se, server není přetěžován. Přitom provozuju ještě jeden server s téměř totožnou konfigurací, systémem a využitím, zde však k problémům nedochází.

Mám pocit, že se jedná určitě o nějaký SW problém, případně nějaké špatné nastavení, ale po půl roce hledání jsem stále na začátku. Napadlo mě nějaké porušení souborového systému, které se třeba přenáší mezi disky během synchronizace RAIDu. Formát disku a reinstalaci systému jsem zatím nedělal, nerad bych se do toho pouštěl, protože tam jedou VPS zákazníků.

Napadá prosím někoho něco, co jsem mohl přehlédnout?

Přikládám část messages log:
Oct  1 17:07:47 XXX kernel: ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Oct  1 17:07:47 XXX kernel: ata2.00: irq_stat 0x40000001
Oct  1 17:07:47 XXX kernel: ata2.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 0
Oct  1 17:07:47 XXX kernel:          res 51/04:00:38:df:f7/00:00:00:00:00/a7 Emask 0x1 (device error)
Oct  1 17:07:47 XXX kernel: ata2.00: status: { DRDY ERR }
Oct  1 17:07:47 XXX kernel: ata2.00: error: { ABRT }
Oct  1 17:07:47 XXX kernel: ata2.00: configured for UDMA/133
Oct  1 17:07:47 XXX kernel: ata2: EH complete
Oct  1 17:07:47 XXX kernel: SCSI device sdb: 976773168 512-byte hdwr sectors (500108 MB)
Oct  1 17:07:47 XXX kernel: sdb: Write Protect is off
Oct  1 17:07:47 XXX kernel: SCSI device sdb: drive cache: write back
... toto se opakuje třeba 10x po sobě a obvykle končí rozpadem RAIDu:
Oct  1 20:27:47 XXX kernel: ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Oct  1 20:27:47 XXX kernel: ata2.00: irq_stat 0x40000001
Oct  1 20:27:47 XXX kernel: ata2.00: cmd 35/00:10:97:00:c4/00:00:38:00:00/e0 tag 0 dma 8192 out
Oct  1 20:27:47 XXX kernel:          res 51/10:10:97:00:c4/00:00:38:00:00/e0 Emask 0x81 (invalid argument)
Oct  1 20:27:47 XXX kernel: ata2.00: status: { DRDY ERR }
Oct  1 20:27:47 XXX kernel: ata2.00: error: { IDNF }
Oct  1 20:27:47 XXX kernel: ata2.00: configured for UDMA/133
Oct  1 20:27:47 XXX kernel: sd 1:0:0:0: SCSI error: return code = 0x08000002
Oct  1 20:27:47 XXX kernel: sdb: Current [descriptor]: sense key: Aborted Command
Oct  1 20:27:47 XXX kernel:     Add. Sense: Recorded entity not found
Oct  1 20:27:47 XXX kernel: 
Oct  1 20:27:47 XXX kernel: Descriptor sense data with sense descriptors (in hex):
Oct  1 20:27:47 XXX kernel:         72 0b 14 00 00 00 00 0c 00 0a 80 00 00 00 00 00 
Oct  1 20:27:47 XXX kernel:         38 c4 00 97 
Oct  1 20:27:47 XXX kernel: end_request: I/O error, dev sdb, sector 952369303
Oct  1 20:27:47 XXX kernel: raid1: Disk failure on sdb1, disabling device. 
Oct  1 20:27:47 XXX kernel: 	Operation continuing on 1 devices
Oct  1 20:27:47 XXX kernel: ata2: EH complete
Oct  1 20:27:47 XXX kernel: SCSI device sdb: 976773168 512-byte hdwr sectors (500108 MB)
Oct  1 20:27:47 XXX kernel: sdb: Write Protect is off
Oct  1 20:27:47 XXX kernel: SCSI device sdb: drive cache: write back

Odpovědi

3.10.2010 00:05 asdderwrqerew
Rozbalit Rozbalit vše Re: CentOS 5.3, RAID1, neustálé SATA chyby DRDY ERR
Skusal si vymenit kabelaz? Su tie disky v poriadku?
3.10.2010 00:25 Spyboy
Rozbalit Rozbalit vše Re: CentOS 5.3, RAID1, neustálé SATA chyby DRDY ERR
Měnil se celý server, tj. i backplane, zůstaly jen ty disky (které se za čas opět měnily). Je to 1U server, takže tam moc kabeláže není. :-( Disky byly vždy měněny za úplně nové, WD Enterprise pro servery.
michich avatar 3.10.2010 00:06 michich | skóre: 50 | blog: ohrivane_parky
Rozbalit Rozbalit vše Re: CentOS 5.3, RAID1, neustálé SATA chyby DRDY ERR
Jsou ty chyby vidět i ve SMART logu? smartctl -a /dev/sdb
3.10.2010 00:31 Spyboy
Rozbalit Rozbalit vše Re: CentOS 5.3, RAID1, neustálé SATA chyby DRDY ERR
Je to nový disk, asi dva týdny v provozu, SMART mi přijde ok:
# smartctl -a /dev/sdb
smartctl version 5.38 [x86_64-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model:     WDC WD5002ABYS-01B1B0
Serial Number:    WD-WCASY2045432
Firmware Version: 02.03B02
User Capacity:    500,107,862,016 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Sun Oct  3 00:26:13 2010 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x84) Offline data collection activity
                                        was suspended by an interrupting command from host.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                 (9480) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 112) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x303f) SCT Status supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   158   158   021    Pre-fail  Always       -       5091
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       15
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   085   085   000    Old_age   Always       -       11546
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       15
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       10
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       15
194 Temperature_Celsius     0x0022   123   107   000    Old_age   Always       -       24
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
AraxoN avatar 3.10.2010 01:06 AraxoN | skóre: 45 | blog: slon_v_porcelane | Košice
Rozbalit Rozbalit vše Re: CentOS 5.3, RAID1, neustálé SATA chyby DRDY ERR
Mne niečo podobné tiež robilo s novými ovládačmi na ATA disky (Serial ATA and Parallel ATA drivers - sda, sdb, ...). Vrátil som sa späť ku starému ovládaču (ATA/ATAPI/MFM/RLL support (DEPRECATED) - hda, dhc, ...) a problém sa odstránil. Robilo to to, čo Tebe - chyby do logu a občasný rebuild či pád poľa SW RAID1. Nahoď nejaké staršie jadro, alebo si skompiluj nové s tým, že vyhodíš preč nové ovládače.
A fine is a tax for doing wrong. A tax is a fine for doing well.
3.10.2010 08:11 Spyboy
Rozbalit Rozbalit vše Re: CentOS 5.3, RAID1, neustálé SATA chyby DRDY ERR
Když jsem zkoušel různé kernely, dostal jsem se k tomu, že jsem musel v BIOSu přenastavit disky ze SATA na IDE (jinak docházelo ke kernel panic, nyní vyřešeno bootováním s parametrem hda=noprobe) a systém viděl disky jako hda, hdb... Všechno jelo v pohodě, ale systém byl neuvěřitelně pomalý, jinak bych tam to IDE nechal...

Nyní jsem zkusil snížit rychlost SATA na 1.5 Gbps, uvidíme... ale není to dlouhodobé řešení...
AraxoN avatar 3.10.2010 08:46 AraxoN | skóre: 45 | blog: slon_v_porcelane | Košice
Rozbalit Rozbalit vše Re: CentOS 5.3, RAID1, neustálé SATA chyby DRDY ERR
A to sú SATA disky? Tak potom nič, mne to robilo len s PATA...
A fine is a tax for doing wrong. A tax is a fine for doing well.
3.10.2010 11:05 Spyboy
Rozbalit Rozbalit vše Re: CentOS 5.3, RAID1, neustálé SATA chyby DRDY ERR
Ano, SATA disky. BTW. to snížení rychlosti bylo opravdu krátkodobé řešení, chyby jsou tu zase :-/
AraxoN avatar 3.10.2010 12:05 AraxoN | skóre: 45 | blog: slon_v_porcelane | Košice
Rozbalit Rozbalit vše Re: CentOS 5.3, RAID1, neustálé SATA chyby DRDY ERR
No... a používa sa správny ovládač? Autodetekcia nie je všemocná, alebo k ovládaču môžu existovať alternatívy. Pozri aký ovládač to pri štarte natiahlo (cez dmesg) a aký tam je v skutočnosti radič (cez lspci).
A fine is a tax for doing wrong. A tax is a fine for doing well.
michich avatar 3.10.2010 02:13 michich | skóre: 50 | blog: ohrivane_parky
Rozbalit Rozbalit vše Re: CentOS 5.3, RAID1, neustálé SATA chyby DRDY ERR
Oct  1 17:07:47 XXX kernel: ata2.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 0
Oct  1 17:07:47 XXX kernel:          res 51/04:00:38:df:f7/00:00:00:00:00/a7 Emask 0x1 (device error)
Oct  1 17:07:47 XXX kernel: ata2.00: status: { DRDY ERR }
Oct  1 17:07:47 XXX kernel: ata2.00: error: { ABRT }
Tady selhal ATA příkaz FLUSH CACHE EXT, číslo sektoru je 0xf7df38 = 16244536.

Vzhledem k tomu "device error" mě překvapuje, že tato událost není zároveň zaznamenána i ve SMART error logu.
... toto se opakuje třeba 10x po sobě a obvykle končí rozpadem RAIDu:
Jak rychle po sobě? A mění se postupně to číslo sektoru?
Oct  1 20:27:47 XXX kernel: ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Oct  1 20:27:47 XXX kernel: ata2.00: irq_stat 0x40000001
Oct  1 20:27:47 XXX kernel: ata2.00: cmd 35/00:10:97:00:c4/00:00:38:00:00/e0 tag 0 dma 8192 out
Oct  1 20:27:47 XXX kernel:          res 51/10:10:97:00:c4/00:00:38:00:00/e0 Emask 0x81 (invalid argument)
Oct  1 20:27:47 XXX kernel: ata2.00: status: { DRDY ERR }
Oct  1 20:27:47 XXX kernel: ata2.00: error: { IDNF }
Tady selhal příkaz WRITE DMA EXT, protože disk si myslí, že sektor s požadovanou adresou neexistuje.

To je ale podivné, protože 0x38c40097 = 952369303 je bezpečně pod hranicí velikosti disku:
Oct  1 20:27:47 XXX kernel: SCSI device sdb: 976773168 512-byte hdwr sectors (500108 MB)
3.10.2010 08:21 Spyboy
Rozbalit Rozbalit vše Re: CentOS 5.3, RAID1, neustálé SATA chyby DRDY ERR
Vzhledem k tomu "device error" mě překvapuje, že tato událost není zároveň zaznamenána i ve SMART error logu.
Proto si právě myslím, že se musí jednat o nějakou SW záležitost...
Jak rychle po sobě? A mění se postupně to číslo sektoru?
Pokud to vyskočí několikrát okamžitě za sebou, číslo sektoru zůstává stejné, jestliže se to zopakuje třeba po deseti minutách, pak je sektor jiný...
To je ale podivné, protože 0x38c40097 = 952369303 je bezpečně pod hranicí velikosti disku:
Přesně... a v tom RAIDu jsou totožné disky (typ, kapacita).
10.10.2010 13:57 Spyboy
Rozbalit Rozbalit vše Re: CentOS 5.3, RAID1, neustálé SATA chyby DRDY ERR
Tak jsem problém vyřešil upgradem ovzkernelu z 2.6.18 (stable) na 2.6.32 (devel). Týden se už zdá být vše ok. Sice pod novým kernelem (zatím) nefunguje cpulimit a každé VPS má tedy k dispozici celý výkon serveru, je to však lepší, než ty problémy s disky.

Všem moc děkuju za pomoc!

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267   www.czech-server.cz
© 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.