abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 05:33 | Komunita

    Richard Stallman dnes v Liberci přednáší o svobodném softwaru a svobodě v digitální společnosti. Od 16:30 v aule budovy G na Technické univerzitě v Liberci. V anglickém jazyce s automaticky generovanými českými titulky. Vstup je zdarma i pro širokou veřejnost.

    Ladislav Hagara | Komentářů: 0
    dnes 03:55 | Komunita

    sudo-rs, tj. sudo a su přepsáné do programovacího jazyka Rust, nahradí v Ubuntu 25.10 klasické sudo. V plánu je také přechod od klasických coreutils k uutils coreutils napsaných v Rustu.

    Ladislav Hagara | Komentářů: 1
    včera 22:11 | Nasazení Linuxu

    Fedora se stala oficiální distribucí WSL (Windows Subsystem for Linux).

    Ladislav Hagara | Komentářů: 1
    včera 13:22 | IT novinky

    Společnost IBM představila server IBM LinuxONE Emperor 5 poháněný procesorem IBM Telum II.

    Ladislav Hagara | Komentářů: 2
    včera 04:55 | Nová verze

    Byla vydána verze 4.0 multiplatformního integrovaného vývojového prostředí (IDE) pro rychlý vývoj aplikaci (RAD) ve Free Pascalu Lazarus (Wikipedie). Přehled novinek v poznámkách k vydání. Využíván je Free Pascal Compiler (FPC) 3.2.2.

    Ladislav Hagara | Komentářů: 1
    včera 00:33 | Komunita

    Podpora Windows 10 končí 14. října 2025. Připravovaná kampaň Konec desítek (End of 10) může uživatelům pomoci s přechodem na Linux.

    Ladislav Hagara | Komentářů: 28
    5.5. 23:22 | Pozvánky

    Již tuto středu proběhne 50. Virtuální Bastlírna, tedy dle římského číslování L. Bude L značit velikost, tedy více diskutujících než obvykle, či délku, neboť díky svátku lze diskutovat dlouho do noci? Bude i příští Virtuální Bastlírna virtuální nebo reálná? Nejen to se dozvíte, když dorazíte na diskuzní večer o elektronice, softwaru, ale technice obecně, který si můžete představit jako virtuální posezení u piva spojené s učenou

    … více »
    bkralik | Komentářů: 1
    5.5. 22:33 | IT novinky

    Dle plánu dnes končí služba Skype. Uživatelé mohou pokračovat v Microsoft Teams.

    Ladislav Hagara | Komentářů: 1
    5.5. 21:44 | IT novinky

    Český statistický úřad rozšiřuje Statistický geoportál o Datový portál GIS s otevřenými geografickými daty. Ten umožňuje stahování datových sad podle potřeb uživatelů i jejich prohlížení v mapě a přináší nové možnosti v oblasti analýzy a využití statistických dat.

    Ladislav Hagara | Komentářů: 2
    5.5. 12:33 | Zajímavý projekt

    Kevin Lin zkouší využívat chytré brýle Mentra při hraní na piano. Vytváří aplikaci AugmentedChords, pomocí které si do brýlí posílá notový zápis (YouTube). Uvnitř brýlí běží AugmentOS (GitHub), tj. open source operační systém pro chytré brýle.

    Ladislav Hagara | Komentářů: 1
    Jaký filesystém primárně používáte?
     (57%)
     (1%)
     (8%)
     (21%)
     (4%)
     (2%)
     (3%)
     (1%)
     (1%)
     (3%)
    Celkem 541 hlasů
     Komentářů: 22, poslední 5.5. 10:06
    Rozcestník
    Štítky: není přiřazen žádný štítek

    Dotaz: Chyby na disku

    11.8.2023 08:30 jan.rok | skóre: 21
    Chyby na disku
    Přečteno: 1213×
    Dobrý den,

    rád bych poprosil o radu zkušenější:

    Na serveru s RHEL8, s hardwarovým RAID řadičem mám mj. RAID5 pole s 3 HDD.
     lsblk
    NAME                           MAJ:MIN RM    SIZE RO TYPE MOUNTPOINT
    sda                              8:0    0  558.9G  0 disk
    └─sda1                           8:1    0  558.9G  0 part
      ├─rhel--raid1-max_maxp_spool 253:2    0      8G  0 lvm  /max/maxp/spool
      ├─rhel--raid1-IDSLOGS        253:3    0     32G  0 lvm  /IDSLOGS
      └─rhel--raid1-data1          253:4    0  518.9G  0 lvm  /data1
    sdb                              8:16   0    1.7T  0 disk
    ├─sdb1                           8:17   0 1023.8M  0 part /boot/efi
    ├─sdb2                           8:18   0      2G  0 part /boot
    ├─sdb3                           8:19   0    1.6T  0 part
    │ ├─rhel--raid5-root           253:0    0     32G  0 lvm  /
    │ ├─rhel--raid5-swap           253:1    0     16G  0 lvm  [SWAP]
    │ ├─rhel--raid5-home           253:5    0      2G  0 lvm  /home
    │ ├─rhel--raid5-var            253:6    0     12G  0 lvm  /var
    │ ├─rhel--raid5-tmp            253:7    0      4G  0 lvm  /tmp
    │ ├─rhel--raid5-max            253:8    0     16G  0 lvm  /max
    │ ├─rhel--raid5-max_maxp_homes 253:9    0     12G  0 lvm  /max/maxp/homes
    │ ├─rhel--raid5-IDSDATA        253:10   0    120G  0 lvm  /IDSDATA
    │ └─rhel--raid5-data2          253:11   0    1.4T  0 lvm  /data2
    └─sdb4                           8:20   0   54.5G  0 part
      └─rhel--raid5-max_maxp_homes 253:9    0     12G  0 lvm  /max/maxp/homes
    
    Při běžné kontrole /dev/sdb3 pomocí badblocks -s -v /dev/sdb3 jsem našel 32 vadných bloků. Provedl jsem badblock -svnf /dev/sdb3, kontrola našla ty stejné vadné bloky, ale ačkoliv jsem očekával opravu (nebo spíš označení jako nečitelné), tak další kontrola stále zobrazuje ty samé vadné bloky. Při práci s diskem zatím žádný problém s nečitelností dat nepozoruju (což může být jen náhoda), projevuje se to však při zálohování pomocí VEEAM Agent for Linux, které končí chybou při čtení disku.

    Jaký by měl být další postup? Data mám samozřejmě odložená i jinde. RAID adaptér chyby nehlásí, SMART taky ne. Ideální by bylo vyměnit všechny disky v poli, ale to je až krajní možnost.

    Díky. JR

    Řešení dotazu:


    Odpovědi

    11.8.2023 09:12 X
    Rozbalit Rozbalit vše Re: Chyby na disku
    Tady mas nekolik rad. Nedelas to na zivem systemu? Zkus
    e2fsck -fccky /dev/sdXX
    
    No a konecne to muzes naformatovat. Souborovy system?
    11.8.2023 09:20 jan.rok | skóre: 21
    Rozbalit Rozbalit vše Re: Chyby na disku
    Je pravda, že zatím jsem to spouštěl na živém systému (odstávka není organizačně jednoduchá, ale v tomto případě bude stejně nutná, jinak to hrozí průšvihem).

    Je tam ext4.
    AraxoN avatar 11.8.2023 09:57 AraxoN | skóre: 47 | blog: slon_v_porcelane | Košice
    Rozbalit Rozbalit vše Re: Chyby na disku
    Z mojej skúsenosti, ak tam sú vadné sektory, zanedlho ich bude viac a potom ešte viac. Nemá zmysel to obchádzať cez badblocks, ale radšej si obstarať náhradný disk a vymeniť ho.

    O ktorý disk sa jedná, by sa malo dať zistiť utilitou k danému HW RAID radiču, napr. megasasctl -e k radiču MegaRAID SAS a pod.

    Radič by sa mohol dať zistiť napríklad takto:
    lspci | grep -i raid
    01:00.0 RAID bus controller: Broadcom / LSI MegaRAID SAS-3 3108 [Invader] (rev 02)
    11.8.2023 12:01 jan.rok | skóre: 21
    Rozbalit Rozbalit vše Re: Chyby na disku
    Když se na to dívám přes iLO5, tak všechny disky vypadají OK.
    AraxoN avatar 11.8.2023 12:18 AraxoN | skóre: 47 | blog: slon_v_porcelane | Košice
    Rozbalit Rozbalit vše Re: Chyby na disku
    Okrem stavu by tá utilita výrobcu mala písať aj nejaké prevádzkové údaje k diskom (podobné SMART-u). Napr. výstup z jedného MegaRAID-u, kde nám odchádzal disk:
    megasasctl -e
    a0       ServeRAID M1015 SAS/SATA Controller encl:1 ldrv:1  batt:FAULT, module missing, pack missing, charge failed
    a0d0      271GiB RAID 10  2x2  optimal
    a0e64s0    136GiB  a0d0  online  
         write errors: corr:  0    delay:  0    rewrit:  0    tot/corr:  0    tot/uncorr:  0   
          read errors: corr:  0    delay:  0    reread:  0    tot/corr:  0    tot/uncorr:  0   
        verify errors: corr:  0    delay:  0    revrfy:  0    tot/corr:  0    tot/uncorr:  0   
    a0e64s1    136GiB  a0d0  online  
         write errors: corr:  0    delay:  0    rewrit:  0    tot/corr:  0    tot/uncorr:  0   
          read errors: corr:  1Gi  delay:  0    reread:  0    tot/corr:  1Gi  tot/uncorr:  0   
        verify errors: corr:256Mi  delay:  0    revrfy:  0    tot/corr:256Mi  tot/uncorr:  0   
    a0e64s2    136GiB  a0d0  online  
         write errors: corr:  0    delay:  0    rewrit:  0    tot/corr:  0    tot/uncorr:  0   
          read errors: corr:  2Gi  delay:  0    reread:  0    tot/corr:  2Gi  tot/uncorr:  0   
        verify errors: corr:  1Gi  delay:  0    revrfy:  0    tot/corr:  1Gi  tot/uncorr:  0   
    a0e64s3    136GiB  a0d0  online  
         write errors: corr:  0    delay: 94    rewrit:  1    tot/corr:  0    tot/uncorr:  1
          read errors: corr:  0    delay: 10    reread:  8    tot/corr:  0    tot/uncorr:  8
        verify errors: corr:  0    delay:  0    revrfy:  8    tot/corr:  0    tot/uncorr:  8
    V tomto prípade bol chybný disk č. 4 (a0e64s3), pretože mal uncorrected errors.
    11.8.2023 11:20 Andrej | skóre: 51 | blog: Republic of Mordor
    Rozbalit Rozbalit vše Re: Chyby na disku
    Je tam ext4.

    Tohle↑ tedy hrozí průšvihem jednoznačně. Časovaná bomba. V roce 2023 to nemá co dělat.

    11.8.2023 11:52 Ja osobne
    Rozbalit Rozbalit vše Re: Chyby na disku
    Jedine ZFS alebo BTRFS?
    11.8.2023 11:59 jan.rok | skóre: 21
    Rozbalit Rozbalit vše Re: Chyby na disku
    Ale jo, to nerozporuju. Je to dané dodavatelem IS, 2018.
    11.8.2023 12:38 X
    Rozbalit Rozbalit vše Re: Chyby na disku
    Zaridit odstavku a potrebujes novy sever s vyrazne modernejsi/stabilnejsi konfiguraci kam se to presype..
    Jendа avatar 11.8.2023 14:53 Jendа | skóre: 78 | blog: Jenda | JO70FB
    Rozbalit Rozbalit vše Re: Chyby na disku
    Já potřebuju vysvětlit jak může „HW RAID“ vracet „vadné bloky“. To jsou jako bloky nečitelné na dvou discích ze tří? Protože když jsou nečitelné na jednom, tak od toho je to přece RAID, aby to vrátil z těch dalších (a pokud se to bude opakovat, tak si vyžádal toho vadného disku výměnu).

    Potřebuješ vyrazit z těch fyzických disků SMART data. To se liší „HW RAID“ od „HW RAIDu“, takže hodně štěstí… Na jednom z nich snad v tom SMARTu budou vidět mrtvé sektory.

    A pak nelze než doporučit postavit to znova s MD-RAIDem :) (nebo btrfs pokud jsi dobrodruh)
    11.8.2023 16:55 Ja osobne
    Rozbalit Rozbalit vše Re: Chyby na disku
    ZFS pre Linux alebo rovno TrueNAS...
    17.8.2023 17:15 Heretik 《小魔神》
    Rozbalit Rozbalit vše Re: Chyby na disku
    Badblocks false positives jsou časté při nedokonalém hardwaru. Běžné na USB3.

    Podezíral bych HW RAID řadič nebo spíše kabely. Disky bych důkladně otestoval na jiné platformě. Je pravděpodobné, že samotné disky jsou v pořádku.
    11.8.2023 12:00 Andrej | skóre: 51 | blog: Republic of Mordor
    Rozbalit Rozbalit vše Re: Chyby na disku

    Tak takového serveru bych se fakt bál. V jakém stavu jsou na něm data, to je ve hvězdách.

    …s hardwarovým RAID řadičem…

    Pozor, nic takového neexistuje. Je to chybný název, scam a pohádka. Takzvaný „hardwarový“ řadič má dvě „skvělé“ vlastnosti:

    • Na AID1 bude vracet náhodně zničená data, když bude jedna z replik z jakéhokoliv důvodu zničená. Prokládané čtení vrátí tu platná data, tu zase neplatná, a nikdo nebude vědět, která jsou která.
    • Na AID5 selhání kteréhokoliv jednoho disku zničí všechna data na všech discích, protože může nečekaně spustit resilvering a namíchat zničená data do distribuované parity i do datových bloků všude.

    RAID se tomuhle↑ ve slušné společnosti neříká. Je to AID bez R.

    Ideální by bylo vyměnit všechny disky v poli, ale to je až krajní možnost.

    Bohužel existuje nesmyslná pověra, že se mají disky měnit najednou, že se mají kombinovat jenom disky podobného stáří a podobně. Máloco může být vzdálenější pravdě.

    Takový nesmysl pak vede k potu a slzám — a kaskádám selhání. Když na starém RAID5 (neřkuli AID5) začne náročná oprava po náhradě disku, pravděpodobnost selhání dalšího disku je nepříjemně vysoká.

    Proto je rozumné mít v RAID poli plánovanou rotaci disků. Jasně, zpočátku pole sestává z nových disků a je zdánlivě škoda je rotovat, ale takový už je život; buď chci dlouhodobý spolehlivý provoz bez náhlých dramatických událostí, nebo mám jiné priority…

    Příklad rotace: Dejme tomu, že máme (skutečný) RAID (pozor, ne „hardwarový“ AID) s 8 disky. První dva roky se nechá běžet beze změn. Pak se každý kvartál vymění 1 disk, toho času nejstarší (nebo zpočátku jeden z nejstarších, dokud je ještě stáří některých disků stejné). Co tohle zajistí:

    • Žádný disk není nikdy starší než 4 roky.
    • Není nouze o nouzové náhradní disky; třeba ten, který byl vyřazený hned po dvou letech, může ještě jednoho dne zachraňovat svět.
    • Nakonec to celé zkonverguje k rozdělení stáří disků od prvního do osmého kvartálu provozu — a díky tomu je i v případě výměny disků a různých dramatických selhání nižší pravděpodobnost, že přijde kaskáda selhání najednou.
    • Proces výměny disků je známá rutina a v případné nouzové situaci (byť méně pravděpodobné než „obvykle“) je náprava rychlejší, s nižší pravděpodobností selhání lidského faktoru.
    • Starosti, co s vadnými bloky a jestli a kdy, odpadnou, protože to do takové fáze zpravidla nedospěje.

    Samozřejmě záleží na tom, jaké požadavky se na příslušný server kladou a kolik stojí (zbytečná a nečekaná a přesčasová) práce lidí v případě selhání ve srovnání s … koupí jednoho disku za kvartál. Bude tam značný nepoměr; zbytečná práce lidí je klidně o dva desítkové řády dražší.

    ├─sdb3                           8:19   0    1.6T  0 part
    │ ├─rhel--raid5-root           253:0    0     32G  0 lvm  /
    │ ├─rhel--raid5-swap           253:1    0     16G  0 lvm  [SWAP]
    │ ├─rhel--raid5-home           253:5    0      2G  0 lvm  /home
    │ ├─rhel--raid5-var            253:6    0     12G  0 lvm  /var
    │ ├─rhel--raid5-tmp            253:7    0      4G  0 lvm  /tmp
    │ ├─rhel--raid5-max            253:8    0     16G  0 lvm  /max
    │ ├─rhel--raid5-max_maxp_homes 253:9    0     12G  0 lvm  /max/maxp/homes
    │ ├─rhel--raid5-IDSDATA        253:10   0    120G  0 lvm  /IDSDATA
    │ └─rhel--raid5-data2          253:11   0    1.4T  0 lvm  /data2
    

    Tohle↑ je učiněná katstrofa. Zbytečné tříštění prostoru nedává nikdy smysl. Aby jeden proces nezabral druhému procesu celý disk, od toho jsou kvóty a podobné vymoženosti, které lze kdykoliv dynamicky upravit, trvale nebo dočasně, podle potřeby.

    Co když bude /var jeden den potřebovat 13G místo 12G? S rozumným (ne)rozdělením diskového prostoru tohle není žádný problém. Upravím kvótu, uložím/vypočítám, co je potřeba, pak zase kvótu zredukuju. S touhle šíleností se z úplně běžné věci stává rocket science, zoufalství a hra na pacmana k tomu.

    Jasně, že LVM dokáže (libovolně fragmentovaně) přidat k LV další bloky odněkud odjinud a v tom se pak dá nafouknout souborový systém — který rozhodně nemá být od volume managementu ani od RAIDu oddělený, leč u obsolete technooogií typu LVM bohužel je —, ale nechtěl bych něco takového podstupovat. Přesněji, v roce 2003 klidně jo, protože tenkrát bych musel. V roce 2023 už ne, protože … nemusím.

    11.8.2023 20:55 pavele
    Rozbalit Rozbalit vše Re: Chyby na disku
    Zapomněl jsi připojit tu radu nebo odpověď na otázku, kterou čeká tazatel... :-)
    11.8.2023 21:18 jan.rok | skóre: 21
    Rozbalit Rozbalit vše Re: Chyby na disku
    Tazatel moc možností nemá:

    - iLO5 ukazuje, že disky jsou ok, přesto badblocks nachází vadné bloky

    - utilita pro čtení SMART ukazuje, že je vše ok

    - záloha pomocí VEEAM neběží, končí na chybě input/output, prostě něco nepřečte

    K dispozici mám náhradní disk do pole. Nyní běží ruční kopie všeho někam pryč ze serveru. Následovat bude výměna prvního disku z RAIDu za náhradní, rebuild pole a následná kontrola pomocí badblocks. Tak budu pokračovat, dokud kontrola nedoběhne bez chyb.

    Vše jen zintenzivní jedníní o dlouho odkládané výměně již starého serveru za jiný.
    Max avatar 11.8.2023 21:56 Max | skóre: 72 | blog: Max_Devaine
    Rozbalit Rozbalit vše Re: Chyby na disku
    Hloupý dotaz. SmartAraay řadiče jsou docela zabugovaný, aspoň podle changelogů a warningů, co mi od HPE chodí. Tj., flashuješ? Máš tam aktuální fw?
    Zdar Max
    Měl jsem sen ... :(
    12.8.2023 08:26 jan.rok | skóre: 21
    Rozbalit Rozbalit vše Re: Chyby na disku
    Přiznávám, že asi víc jak rok starý. Ale chyba se objevila až teď.
    12.8.2023 13:37 pavele
    Rozbalit Rozbalit vše Re: Chyby na disku
    No já nevím, chyba disku je přece běžná věc, tedy podle mě, proto RAID, zálohování atd.

    Identifikuju vadný disk, vyměním, provedu rebuild a hotovo.

    Nejsem proti výměně celého serveru, ale stejná situace přece může nastat i s novým serverem a novými disky a souborovým systémem "jsem_naprosto_špička".

    Abych při každé chybě disku měnil server - nevím, nevím. :-)

    Vždy jsem identifikoval vadný disk, provedl výměnu a jelo se dál. :-)
    Jendа avatar 12.8.2023 16:01 Jendа | skóre: 78 | blog: Jenda | JO70FB
    Rozbalit Rozbalit vše Re: Chyby na disku
    Ano, a jemu to zjevně nefunguje - jednak mu chybu na disku vrací RAID (jak se to proboha může stát, to by musel být stejný sektor vadný na dvou discích současně; nebo takhle možná dává najevo že mu nevyšla parita? zkoušel ten blok přepsat?) a jednak nedokáže zjistit který disk je vadný (RAID mu neřekl diagnostiku jak k chybě došlo a disky se ve SMARTu tváří zdravě -- bych skoro čekal že to fakt je problém řadiče).

    Já nechápu proč proboha lidi furt „HW RAIDy“ používají. Ještě bych to chápal u NVMe, ale u běžných disků? Tam fakt není bottleneck ve výkonu. Ještě tu teda někdo psal že je pro něj důležitá baterková writeback cache.
    12.8.2023 16:27 Peter Golis | skóre: 64 | blog: Bežné záležitosti | Bratislava
    Rozbalit Rozbalit vše Re: Chyby na disku
    Ono to môže byť aj tým, že do HW RAID poľa dal desktopový disk ktorý kľudne vráti blok núl namiesto chyby pri čítaní, a odmietne zapísať na poškodený blok disku. S.M.A.R.T z HW RAID poľa sa zvykne spracovávať HW radičom a bez špeciálnych nástrojov sa nie vždy dá prečítať z diskov cez bežný smartctl keďže sa propagujú LUNy a nie jednotivé disky.

    Teda ak to nie je WinRAID, čo nevylučujem. Také obskúrnosti sa montovali aj do serverov, a občas do servera dal správca taký (ehm) externý radič.

    Takže bez detailov (typ radiča, verzia FW radiča a iLO, report z nástroja na ovládanie radiča a podobne) to tu ostane na úrovni flame wars či je lepšie so šípkovou alebo s kyslou kapustou.
    12.8.2023 20:41 jan.rok | skóre: 21
    Rozbalit Rozbalit vše Re: Chyby na disku
    Je to HP ProLiant ML110 Gen10 s řadičem HPE Smart Array P408i-p SR Gen10, všechny disky jsou serverové hot-swapové HP EG000600JWJNP. Server byl dodán dodavatelem informačního systému, oni ho i spravovali po dobu záruky, která asi před 2 měsíci skončila. Od té doby se o to nikdo nestaral, až jsem se k tomu dostal já. Zjistil jsem nefunkční zálohování, zjišťoval co se děje, našel vadné bloky.

    Výměna serveru kvůli vadnému disku je samozřejmě nesmysl, avšak výměna serveru je tak nějak v dlouhodobém plánu provozovatele. Proč bych se tomu měl bránit, že.

    A opravdu je to tak, že zatím neznám způsob, jak zjistit, který konkrétní disk je v háji.

    A proč někdo pořád používá HW RAID? No třeba zde to snad ani jinak nejde. Disky se po zasunutí do šachty připojí na backplane, který je připojen k HW RAID adaptéru. To bych musel backplane vypárat, dát do PCI-E slotu jiný řadič, nějak řešit napájení a připojení. Tak proto.

    Jak jsem psal výše: po ruční zazálohování budu měnit disk po disku a kontrolovat. Buď vadný disk objevím, nebo to celé lehne.

    Přesto díky všem za názory a napíšu, jak jsem dopadl.
    12.8.2023 21:17 Peter Golis | skóre: 64 | blog: Bežné záležitosti | Bratislava
    Rozbalit Rozbalit vše Re: Chyby na disku
    To sú pekné verzie softwéru a firmwéru (UEFI BIOS, iLO, FW radiču, FW diskov, ...), odporučil by som to skontrolovať aj s podporovaným OS.

    Tie nástroje na správu RAID vedeli urobiť aj hĺbkovú diagnostiku diskov, a zablikať vadným diskom nech človek vie ktorý disk má vymeniť. Stránky HPE zvykli mať download aj pre Linux. Akurát neviem či to už nepresunuli do sekcie pre registrovaných zákazníkov.

    Samotné iLO malo viacero licencií. Niektoré vedeli akurát tak vypnúť, resetnúť alebo zapnúť server (poprípade povedať že stroj nabehol), niektoré vedeli potvrdiť základnú funkčnosť zostavy (to ostatne aj LEDky na doske), niektoré vedeli poskytnúť rozšírené informácie aj s vynútením rozšírenej diagnostiky a niektoré vedeli na diaľku informovať autorizovaného servisáka o potrebe výmeny zlyhávajúceho komponentu ktorý naklusal a zazvonil na dvere firmy bez toho aby sa dopredu ohlásil.

    PS: Aj na HW RAID radičoch sa dali vypropagovať jednotlivé disky priamo do OS. Buď sa radiť priamo prepol do módu PassThrough, alebo sa vo FW RAID radiča zmenilo nastavenie a vytvorili sa jednotlivé LUNy štýlom jeden na disk. Ale s týmto sa neodporúčam hrať, je tam riziko deštrukčnej operácie.
    12.8.2023 22:43 dustin | skóre: 63 | blog: dustin
    Rozbalit Rozbalit vše Re: Chyby na disku
    Jenom k tomu přehození na HBA - mám dobré zkušenosti s připojením HP Proliant klecí do HBA řadičů LSI, vždy ve verzi odpovídající konektoru na kleci (SAS92xx, SAS93xx). Řadiče za pár korun z ebaye. Obvykle fungují i ledky včetně rozsvícení LOCATE přes utilitky sas.

    Hlavní starost je, aby z toho uměl server nabootovat.
    Max avatar 14.8.2023 08:48 Max | skóre: 72 | blog: Max_Devaine
    Rozbalit Rozbalit vše Re: Chyby na disku
    Já nemám problém s HW polem ani se sw polem. Pokud by jsi chtěl řešit migraci na něco jiného, tak stačí vyměnit jen řadič za nějaký HBA (nejlépe asi od LSI). Backplane je připojen standardním konektorem, takže opravdu stačí jen jiný řadič.
    Každopádně to, co ty řešíš, se mi snad nikdy nestalo.
    Zdar Max
    Měl jsem sen ... :(
    13.8.2023 12:10 Michal
    Rozbalit Rozbalit vše Re: Chyby na disku
    Kdo ti nakecal, ze hw raid radice neexistuji? :-)
    15.8.2023 10:22 jan.rok | skóre: 21
    Rozbalit Rozbalit vše Re: Chyby na disku
    Mám jeden nový náhradní disk.

    Náhradní disk jsem zapojil místo disku1, rebuild, kontrola - se stejnými chybami.

    Původní disk 1 jsem zapojil místo disku2, rebuild, kontrola - se stejnými chybami.

    Původní disk 2 jsem zapojil místo disku3, rebuild, kontrola - se stejnými chybami.

    Původní disk 3 jsem zapojil místo disku4, rebuild, kontrola - se stejnými chybami.

    Ve všech případech po dokončení rebuildu ukazuje iLO5 i CLI utilita, že je vše OK, avšak badblocks stále vypisuje ty samé chyby.

    Tak tedy nevím...
    15.8.2023 12:52 X
    Rozbalit Rozbalit vše Re: Chyby na disku
    Jak presne vypada ten chybovy vystup? Porad to delas na zivo?
    15.8.2023 12:58 jan.rok | skóre: 21
    Rozbalit Rozbalit vše Re: Chyby na disku
    Zatím pořád naživo.
    Pass completed, 48 bad blocks found (48/0/0 errors)
    16.8.2023 08:46 X
    Rozbalit Rozbalit vše Re: Chyby na disku
    Muzes vysvetlit proc to porad delas stejne blbe? Hned na zacatku jsem psal jak to mas udelat.
    Jendа avatar 16.8.2023 13:02 Jendа | skóre: 78 | blog: Jenda | JO70FB
    Rozbalit Rozbalit vše Re: Chyby na disku
    To je workaround, který filesystému řekne, aby nepoužíval nějaké bloky, ne? Osobně bych takový workaround (=mám na zařízení vadné bloky, nedokážu diagnostikovat proč a jenom čekám na to, až se objeví nějaké další a tentokrát třeba v nějakém důležitém souboru) na produkčním systému fakt nechtěl.
    16.8.2023 13:23 Peter Golis | skóre: 64 | blog: Bežné záležitosti | Bratislava
    Rozbalit Rozbalit vše Re: Chyby na disku
    Technicky môže byť tá chyba spôsobená chybou vo FW alebo nedokončeným zápisom ak bol počítač nekorektne vypnutý. Tam by force fsck mohol odhaliť chybu.

    Ale dôležité dáta sa uchovávajú na FS ktorý má checksumy na metadáta a aj na dáta. A tak isto sa aj verzionovane uchovávajú v inej lokácii. Ak to tak nie je, tak sa dostane ku slovu Single Point Of Failure.

    Ja by som odporučil update FW, rebuild tej mašiny s nejakým rozumným FS, a nahrať dôležité dáta naspäť.
    15.8.2023 13:01 pavele
    Rozbalit Rozbalit vše Re: Chyby na disku
    Nešlo by spíš postupně vytahovat disky a ten vytažený disk zkontrolovat samostatně na badblocks třeba na jiném pc nebo jej připojit jako externí přes USB3 a zkontrolovat - aby se vyloučil vliv OS a hardwaru - kabely, řadič atd.?

    Jak konkrétně spouštíš badblocks?
    15.8.2023 13:05 jan.rok | skóre: 21
    Rozbalit Rozbalit vše Re: Chyby na disku
    sudo badblocks -sv /dev/sdb
    Max avatar 15.8.2023 13:18 Max | skóre: 72 | blog: Max_Devaine
    Rozbalit Rozbalit vše Re: Chyby na disku
    Já vždy testoval pomocí -nvv, ale nikdy to nebylo 100%. Skutečné chyby mi pak objevil až destruktivní test "-wvv".
    Ale badblocks už nepoužívám strašně dlouho, protože prostě nedestruktivně to není moc vypovídající, destruktivně to není ideální a v dnešní době fake bloků a dalších věcí těžko říci, co skutečně testuji (navíc už na spoustě místech stejně používám SSD). Aktuálně tedy spoléhám už jen na hlášky FS (scrub apod.) a S.M.A.R.T. info.

    Na tebou popsanou situaci jsem ale nenarazil. Nezkoušel jsi se dívat do changelogu aktuálních firmware řadiče? Rok sice není dlouhá doba, ale občas se tam objeví nějaká zákeřnost. To samé platí pro samotné disky (vycházejí firmware i na ně).
    V případě HPE doporučuji použít poslední SPP a poté ručně doaktualizovat konkrétní komponenty.
    Zdar Max
    Měl jsem sen ... :(
    17.8.2023 16:04 drnest | skóre: 13 | blog: Dřinu nechte strojům
    Rozbalit Rozbalit vše Re: Chyby na disku
    Když měl disk vadný bloky, testoval jsem to pomocí badblocks -nsv /dev/sda. Tím jsem řadič donutil použít záložní sektory. Jak je to v případě, že je to volume z RAIDu, ale netuším.
    AraxoN avatar 15.8.2023 15:16 AraxoN | skóre: 47 | blog: slon_v_porcelane | Košice
    Rozbalit Rozbalit vše Re: Chyby na disku
    V dmesg nie je nič?
    15.8.2023 15:50 jan.rok | skóre: 21
    Rozbalit Rozbalit vše Re: Chyby na disku
    Je tam toto:
     critical medium error, dev sdb, sector 3154816248 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 0
    [305571.041556] Buffer I/O error on dev sdb, logical block 394352031, async page read
    
    Ale ani z toho nevidím, který disk je vadný. Zkusím ještě data vykopírovat a RAID postavit znovu. Třeba to při tom nové buildu vyhodí nějakou chybu.
    k3dAR avatar 15.8.2023 20:57 k3dAR | skóre: 63
    Rozbalit Rozbalit vše Re: Chyby na disku
    jak nevidis? pise dev sdb, coz je predpokladam ten dev na co si pustil badblock no a "hdparm -I /dev/sdb" (velke i ne l) ci "smartctl -x /dev/sdb" ti rekne jeho SN ktere najdes na stitku disku...
    (to sdb se samozrejme muze zmenit pri rebootu)
    porad nemam telo, ale uz mam hlavu... nobody
    15.8.2023 21:06 jan.rok | skóre: 21
    Rozbalit Rozbalit vše Re: Chyby na disku
    Příkazy mi řeknou toto:
    # hdparm -I /dev/sdb
    
    /dev/sdb:
    SG_IO: bad/missing sense data, sb[]:  70 00 05 00 00 00 00 0a 00 00 00 00 20 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
    
    ATA device, with non-removable media
    Standards:
            Likely used: 1
    Configuration:
            Logical         max     current
            cylinders       0       0
            heads           0       0
            sectors/track   0       0
            --
            Logical/Physical Sector size:           512 bytes
            device size with M = 1024*1024:           0 MBytes
            device size with M = 1000*1000:           0 MBytes
            cache/buffer size  = unknown
    Capabilities:
            IORDY not likely
            Cannot perform double-word IO
            R/W multiple sector transfer: not supported
            DMA: not supported
            PIO: pio0
    
    smartctl -x /dev/sdb
    smartctl 7.1 2020-04-05 r5049 [x86_64-linux-4.18.0-305.3.1.el8_4.x86_64] (local build)
    Copyright (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org
    
    === START OF INFORMATION SECTION ===
    Vendor:               HPE
    Product:              LOGICAL VOLUME
    Revision:             2.65
    Compliance:           SPC-3
    User Capacity:        1,800,279,121,920 bytes [1.80 TB]
    Logical block size:   512 bytes
    Logical Unit id:      0x600508b1001cb4dd10e0db406dca8872
    Serial number:        PFJHD0ARCCZ1HF
    Device type:          disk
    Local Time is:        Tue Aug 15 21:04:45 2023 CEST
    SMART support is:     Available - device has SMART capability.
    SMART support is:     Enabled
    Temperature Warning:  Disabled or Not Supported
    Read Cache is:        Enabled
    Writeback Cache is:   Disabled
    
    === START OF READ SMART DATA SECTION ===
    SMART Health Status: OK
    Current Drive Temperature:     0 C
    Drive Trip Temperature:        0 C
    
    Error Counter logging not supported
    
    Device does not support Self Test logging
    Device does not support Background scan results logging
    
    Z toho pořád nevidím, o jaký fyzický disk jde.
    AraxoN avatar 16.8.2023 06:33 AraxoN | skóre: 47 | blog: slon_v_porcelane | Košice
    Rozbalit Rozbalit vše Re: Chyby na disku
    Z man smartctl:
                  To look at disks behind HP Smart Array controllers, use syntax such as:
                  smartctl -a -d cciss,0 /dev/cciss/c0d0    (cciss driver under Linux)
                  smartctl -a -d cciss,0 /dev/sg2    (hpsa or hpahcisr drivers under Linux)
    
    Aký driver to používa? (lspci -v)
    16.8.2023 06:50 jan.rok | skóre: 21
    Rozbalit Rozbalit vše Re: Chyby na disku
    01:00.7 RAID bus controller: Hewlett-Packard Company Device 193f (rev 01)
            DeviceName: Embedded Storage
            Subsystem: Hewlett Packard Enterprise Device 00e4
            Flags: bus master, fast devsel, latency 0, IRQ 255, NUMA node 0
            Memory at d9b9c000 (32-bit, non-prefetchable) [size=16K]
            Memory at d9b98000 (32-bit, non-prefetchable) [size=16K]
            Capabilities: [70] MSI-X: Enable- Count=4 Masked-
            Capabilities: [80] Express Legacy Endpoint, MSI 00
            Capabilities: [f0] Power Management version 3
            Capabilities: [100] Advanced Error Reporting
    
    AraxoN avatar 16.8.2023 07:16 AraxoN | skóre: 47 | blog: slon_v_porcelane | Košice
    Rozbalit Rozbalit vše Re: Chyby na disku
    Divné... dole by malo byť, aký kernel driver to používa. Napr.:
    01:00.0 RAID bus controller: Broadcom / LSI MegaRAID SAS-3 3008 [Fury] (rev 02)
            Subsystem: IBM MegaRAID SAS-3 3008 [Fury]
            ...
            Capabilities: [148] Alternative Routing-ID Interpretation (ARI)
            Kernel driver in use: megaraid_sas
    alebo
    08:00.0 Serial Attached SCSI controller: Adaptec Smart Storage PQI SAS (rev 01)
            Subsystem: Lenovo ThinkSystem RAID 5350-8i PCIe 12Gb Adapter
            ...
            Capabilities: [300] Secondary PCI Express
            Kernel driver in use: smartpqi
    16.8.2023 07:24 jan.rok | skóre: 21
    Rozbalit Rozbalit vše Re: Chyby na disku
    Omlouvám se, správně má být tohle:
    b1:00.0 Serial Attached SCSI controller: Adaptec Smart Storage PQI SAS (rev 01)
            Subsystem: Hewlett-Packard Company Smart Array P408i-p SR Gen10
            Physical Slot: 1
            Flags: bus master, fast devsel, latency 0, IRQ 34, NUMA node 0
            Memory at f3800000 (64-bit, non-prefetchable) [size=32K]
            I/O ports at c000 [size=256]
            Capabilities: [80] Power Management version 3
            Capabilities: [b0] MSI-X: Enable+ Count=64 Masked-
            Capabilities: [c0] Express Endpoint, MSI 00
            Capabilities: [100] Advanced Error Reporting
            Capabilities: [300] Secondary PCI Express
            Kernel driver in use: smartpqi
            Kernel modules: smartpqi
    
    AraxoN avatar 16.8.2023 07:34 AraxoN | skóre: 47 | blog: slon_v_porcelane | Košice
    Rozbalit Rozbalit vše Re: Chyby na disku
    Mal by byť do nejakej miery kompatibilný s cciss aj s hpsa: (zdroj)
           smartpqi is a SCSI driver for Microsemi Smart Family controllers.
    
       Supported ioctl() operations
           For compatibility with applications written for the cciss(4) and
           hpsa(4) drivers, many, but not all of the ioctl(2) operations
           supported by the hpsa driver are also supported by the smartpqi
           driver...
    Takže by mohlo fungovať niečo z toho predošlého príspevku (smartctl -d cciss,...)
    16.8.2023 07:42 jan.rok | skóre: 21
    Rozbalit Rozbalit vše Re: Chyby na disku
    Tak např.
    smartctl -a -d cciss,0 /dev/sdb
    smartctl 7.1 2020-04-05 r5049 [x86_64-linux-4.18.0-305.3.1.el8_4.x86_64] (local build)
    Copyright (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org
    
    === START OF INFORMATION SECTION ===
    Vendor:               HP
    Product:              EG000600JWJNP
    Revision:             HPD3
    Compliance:           SPC-4
    User Capacity:        600,127,266,816 bytes [600 GB]
    Logical block size:   512 bytes
    Rotation Rate:        10500 rpm
    Form Factor:          2.5 inches
    Logical Unit id:      0x5000c500c9cc3333
    Serial number:        WFJ38HBE
    Device type:          disk
    Transport protocol:   SAS (SPL-3)
    Local Time is:        Wed Aug 16 07:40:34 2023 CEST
    SMART support is:     Available - device has SMART capability.
    SMART support is:     Enabled
    Temperature Warning:  Enabled
    
    === START OF READ SMART DATA SECTION ===
    SMART Health Status: OK
    
    Current Drive Temperature:     49 C
    Drive Trip Temperature:        60 C
    
    Manufactured in week 09 of year 2020
    Specified cycle count over device lifetime:  10000
    Accumulated start-stop cycles:  347
    Specified load-unload count over device lifetime:  300000
    Accumulated load-unload cycles:  1486
    Elements in grown defect list: 0
    
    Error counter log:
               Errors Corrected by           Total   Correction     Gigabytes    Total
                   ECC          rereads/    errors   algorithm      processed    uncorrected
               fast | delayed   rewrites  corrected  invocations   [10^9 bytes]  errors
    read:          0        0         0         0          0      58832.195           0
    write:         0        0         0         0          0       4851.599           0
    verify:        0        0         0         0          0         17.751           0
    
    Non-medium error count:     9378
    
    SMART Self-test log
    Num  Test              Status                 segment  LifeTime  LBA_first_err [SK ASC ASQ]
         Description                              number   (hours)
    # 1  Background short  Completed                   -   27161                 - [-   -    -]
    # 2  Background short  Completed                   -   27161                 - [-   -    -]
    
    Long (extended) Self-test duration: 3300 seconds [55.0 minutes]
    
    Takhle dokážu prohlédnout všechny disky, ale ani na jednom mi to žádnou chybu neukáže.
    AraxoN avatar 16.8.2023 08:16 AraxoN | skóre: 47 | blog: slon_v_porcelane | Košice
    Rozbalit Rozbalit vše Re: Chyby na disku
    Tak to musí byť niečo vadné v tom radiči, v kábloch, alebo v backplane, ku ktorému sa pripájajú disky.
    Max avatar 15.8.2023 21:12 Max | skóre: 72 | blog: Max_Devaine
    Rozbalit Rozbalit vše Re: Chyby na disku
    Pochop, že /dev/sdb je logická voluma, co ten řadič vytvořil ;-).
    Zdar Max
    Měl jsem sen ... :(
    k3dAR avatar 15.8.2023 21:42 k3dAR | skóre: 63
    Rozbalit Rozbalit vše Re: Chyby na disku
    jasne, uniklo mi ze jde o HW-RAID :)
    porad nemam telo, ale uz mam hlavu... nobody
    Řešení 1× (jan.rok (tazatel))
    27.8.2023 11:22 jan.rok | skóre: 21
    Rozbalit Rozbalit vše Re: Chyby na disku
    Dlužím zde zprávu, jak to nakonec dopadlo:

    Po zajištění dočasného náhradního řešení jsem aplikace přesunul jinam. Diskové pole jsem vytvořil znovu, disky jednotlivě otestoval jinde. Vše zformátoval a vrátil do původního stavu.

    Při žádné z dalších kontrol jsem pak už žádnou chybu nezaznamenal:

    - iLO5 ukazuje vše OK

    - SMART ukazuje vše OK

    - badblocks okazuje 0 chyb

    - záloha celého serveru pomocí VEEAM běží

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.