abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    včera 13:44 | Nová verze

    Byla vydána nová verze 12.0.0 vizuálního programovacího jazyka Snap! (Wikipedie) inspirovaného jazykem Scratch (Wikipedie). Přehled novinek na GitHubu.

    Ladislav Hagara | Komentářů: 0
    včera 11:44 | IT novinky

    Počítačovou hru Gravity Circuit (ProtonDB) lze do 14. června do 19:00 získat na Steamu zdarma. Napořád.

    Ladislav Hagara | Komentářů: 0
    včera 11:00 | Bezpečnostní upozornění

    Nejnovější X.Org X server 21.1.23 a Xwayland 24.1.12 řeší 9 bezpečnostních chyb.

    Ladislav Hagara | Komentářů: 0
    1.6. 22:33 | Bezpečnostní upozornění

    npm balíčky @redhat-cloud-services byly kompromitovány.

    Ladislav Hagara | Komentářů: 5
    1.6. 22:22 | Bezpečnostní upozornění

    Byly publikovány informace o zranitelnosti CVE-2026-46243 pojmenované CIFSwitch v Linuxu od roku 2007. Běžný uživatel může získat práva roota (lokální eskalaci práv). V upstreamu je již opraveno.

    Ladislav Hagara | Komentářů: 0
    1.6. 19:22 | IT novinky

    Nvidia na své konferenci NVIDIA GTC Taipei 2026 představila řadu novinek. Společně s Microsoftem představili superčip NVIDIA RTX Spark (až 6 144 jader GPU, 20 jader CPU, 1 petaflop AI výkonu v FP4 a 128 GB jednotné paměti). První notebooky a stolní počítače s tímto čipem od Nvidie místo Intelu nebo AMD by se měly na trh dostat na podzim letošního roku.

    Ladislav Hagara | Komentářů: 9
    1.6. 13:22 | IT novinky

    Na Kickstarteru běží kampaň na podporu kapesního počítače s Linuxem CardputerZero od společnosti M5Stack. Postaven je na Raspberry Pi Compute Module 0. Podporuje moduly M5. Koupit lze s rozšířeními LoRa a CC1101.

    Ladislav Hagara | Komentářů: 0
    1.6. 11:11 | Pozvánky

    Tento týden se bude vyznačovat zejména deštěm, a proto vás může zajímat, že již v úterý proběhne 63. Virtuální Bastlírna, která se bude odehrávat přímo v teple vašich domovů a bastlíren. Proto se připojte k této volné otevřené diskuzi bastlířů, techniků, vědců, ve které se probírají novinky a zajímavá témata z techniky. Mezi největší novinky bude tentokrát patrně patřit oznámení hackerského nástroje Flipper One. Zároveň úspěšně probíhá

    … více »
    bkralik | Komentářů: 0
    1.6. 03:22 | Nová verze

    86Box (Wikipedie), tj. emulátor retro počítačů založených na x86, byl vydán ve verzi 6.0. Přibyly například zvuky pevného disku. Na GitHubu jsou vedle zdrojových kódů ke stažení také připravené balíčky ve formátu AppImage.

    Ladislav Hagara | Komentářů: 0
    1.6. 03:00 | Nová verze

    Byla vydána nová verze 4.6 audio přehrávače Audacious (Wikipedie). Z novinek lze vypíchnout nový plugin pro procházení soubory, podporu audio formátu Musepack SV8 nebo přechod na build systém Meson.

    Ladislav Hagara | Komentářů: 0
    Které desktopové prostředí na Linuxu používáte?
     (12%)
     (8%)
     (2%)
     (15%)
     (31%)
     (4%)
     (6%)
     (3%)
     (16%)
     (26%)
    Celkem 1801 hlasů
     Komentářů: 30, poslední 3.4. 20:20
    Rozcestník


    Dotaz: ECC chyby a Dual-channel - který modul je vadný?

    Jendа avatar 10.7.2017 06:41 Jendа | skóre: 78 | blog: Jenda | JO70FB
    ECC chyby a Dual-channel - který modul je vadný?
    Přečteno: 977×
    Ahoj,

    Asus Z10PE-D8 WS s dvěma CPU a 8x16 GB RAM ukazuje následující dvě zprávy:
    mce: [Hardware Error]: Machine check events logged
    EDAC sbridge MC0: HANDLING MCE MEMORY ERROR
    EDAC sbridge MC0: CPU 12: Machine Check Event: 0 Bank 9: 8c000050000800c0
    EDAC sbridge MC0: TSC 0 
    EDAC sbridge MC0: ADDR 1485247000 
    EDAC sbridge MC0: MISC 90000010001208c 
    EDAC sbridge MC0: PROCESSOR 0:306f2 TIME 1497174376 SOCKET 1 APIC 20
    EDAC MC0: 1 CE memory scrubbing error on CPU_SrcID#1_Ha#0_Chan#1_DIMM#0 (channel:1 slot:0 page:0x1485247 offset:0x0 grain:32 syndrome:0x0 -  area:DRAM err_code:0008:00c0 socket:1 ha:0 channel_mask:2 rank:0)
    
    mce: [Hardware Error]: Machine check events logged
    EDAC sbridge MC0: HANDLING MCE MEMORY ERROR
    EDAC sbridge MC0: CPU 12: Machine Check Event: 0 Bank 7: 8c00004000010090
    EDAC sbridge MC0: TSC 0 
    EDAC sbridge MC0: ADDR 1485247540 
    EDAC sbridge MC0: MISC 1527afa86 
    EDAC sbridge MC0: PROCESSOR 0:306f2 TIME 1495475795 SOCKET 1 APIC 20
    EDAC MC0: 1 CE memory read error on CPU_SrcID#1_Ha#0_Chan#0_DIMM#0 (channel:0 slot:0 page:0x1485247 offset:0x540 grain:32 syndrome:0x0 -  area:DRAM err_code:0001:0090 socket:1 ha:0 channel_mask:1 rank:0)
    
    # edac-util -v
    mc0: 0 Uncorrected Errors with no DIMM info
    mc0: 0 Corrected Errors with no DIMM info
    mc0: csrow0: 0 Uncorrected Errors
    mc0: csrow0: CPU_SrcID#1_Ha#0_Chan#0_DIMM#0: 26 Corrected Errors
    mc0: csrow0: CPU_SrcID#1_Ha#0_Chan#1_DIMM#0: 66 Corrected Errors
    mc0: csrow0: CPU_SrcID#1_Ha#1_Chan#0_DIMM#0: 0 Corrected Errors
    mc0: csrow0: CPU_SrcID#1_Ha#1_Chan#1_DIMM#0: 0 Corrected Errors
    mc1: 0 Uncorrected Errors with no DIMM info
    mc1: 0 Corrected Errors with no DIMM info
    mc1: csrow0: 0 Uncorrected Errors
    mc1: csrow0: CPU_SrcID#0_Ha#0_Chan#0_DIMM#0: 0 Corrected Errors
    mc1: csrow0: CPU_SrcID#0_Ha#0_Chan#1_DIMM#0: 0 Corrected Errors
    mc1: csrow0: CPU_SrcID#0_Ha#1_Chan#0_DIMM#0: 0 Corrected Errors
    mc1: csrow0: CPU_SrcID#0_Ha#1_Chan#1_DIMM#0: 0 Corrected Errors
    
    Přečetl jsem si adresu, na kterou to nadává (0x1485247XXX), a v dmidecode našel následující:
    Handle 0x006F, DMI type 16, 23 bytes
    Physical Memory Array
            Location: System Board Or Motherboard
            Use: System Memory
            Error Correction Type: Multi-bit ECC
            Maximum Capacity: 128 GB
            Error Information Handle: Not Provided
            Number Of Devices: 2
    
    Handle 0x0070, DMI type 19, 31 bytes
    Memory Array Mapped Address
            Starting Address: 0x01000000000
            Ending Address: 0x017FFFFFFFF
            Range Size: 32 GB
            Physical Array Handle: 0x006F
            Partition Width: 2
    
    Handle 0x0071, DMI type 17, 34 bytes
    Memory Device
            Array Handle: 0x006F
            Error Information Handle: Not Provided
            Total Width: 72 bits
            Data Width: 64 bits
            Size: 16384 MB
            Form Factor: DIMM
            Set: None
            Locator: DIMM_E1
            Bank Locator: NODE 3
            Type: Other
            Type Detail: Synchronous
            Speed: 2133 MHz
            Manufacturer: Micron
            Serial Number: 112718E3
            Asset Tag: DIMM_E1_AssetTag
            Part Number: 36ASF2G72PZ-2G1A2  
            Rank: 2
            Configured Clock Speed: 2133 MHz
    
    Handle 0x0072, DMI type 20, 35 bytes
    Memory Device Mapped Address
            Starting Address: 0x01000000000
            Ending Address: 0x013FFFFFFFF
            Range Size: 16 GB
            Physical Device Handle: 0x0071
            Memory Array Mapped Address Handle: 0x0070
            Partition Row Position: 1
    
    Handle 0x0073, DMI type 17, 34 bytes
    Memory Device
            Array Handle: 0x006F
            Error Information Handle: Not Provided
            Total Width: 72 bits
            Data Width: 64 bits
            Size: 16384 MB
            Form Factor: DIMM
            Set: None
            Locator: DIMM_F1
            Bank Locator: NODE 3
            Type: Other
            Type Detail: Synchronous
            Speed: 2133 MHz
            Manufacturer: Micron
            Serial Number: 11271993
            Asset Tag: DIMM_F1_AssetTag
            Part Number: 36ASF2G72PZ-2G1A2  
            Rank: 2
            Configured Clock Speed: 2133 MHz
    
    Handle 0x0074, DMI type 20, 35 bytes
    Memory Device Mapped Address
            Starting Address: 0x01400000000
            Ending Address: 0x017FFFFFFFF
            Range Size: 16 GB
            Physical Device Handle: 0x0073
            Memory Array Mapped Address Handle: 0x0070
            Partition Row Position: 1
    
    Handle 0x0075, DMI type 16, 23 bytes
    Physical Memory Array
            Location: System Board Or Motherboard
            Use: System Memory
            Error Correction Type: Multi-bit ECC
            Maximum Capacity: 128 GB
            Error Information Handle: Not Provided
            Number Of Devices: 2
    
    Sloty na desce jsou fyzicky popsané DIMM_A1 až H1 a adresa, ve které došlo k chybě, spadá do DIMM_F1. Jenže mi není jasné, jak funguje ten dual channel - naivně jsem si myslel, že paměť interleavuje po malých blocích (šířka sběrnice nebo cacheline), jenže v tom dmidecode je vidět, že paměťové moduly jdou po 16 GiB. Není možné, že je chyba třeba i v modulu DIMM_E1?

    Odpovědi

    10.7.2017 18:22 Trubicoid2
    Rozbalit Rozbalit vše Re: ECC chyby a Dual-channel - který modul je vadný?
    Bych tomu dmidecode moc nevěřil. Díky tomu interleave to může být v libovolným dimmu u příslušnýho CPU. Měl jsem zato, že se interleavuje po 64 nebo 128b.

    Nejlepší možnost je postupně dimmy vyndávat, až chyba zmizí, tak to byl on :)
    Jendа avatar 10.7.2017 18:57 Jendа | skóre: 78 | blog: Jenda | JO70FB
    Rozbalit Rozbalit vše Re: ECC chyby a Dual-channel - který modul je vadný?
    Hm, super.

    To má dva problémy: DIMMy jsou blbě dostupné pod chladičem CPU a chyba se objevuje občas.
    10.7.2017 20:42 Trubicoid2
    Rozbalit Rozbalit vše Re: ECC chyby a Dual-channel - který modul je vadný?
    Chladič blbý. Ale třeba jenom tu plastovou packu na jedné straně otevřeš? Bez vytahování modulu.

    Že se chyba objevuje jen občas - tomu by se dalo pomoct. Paměti prohřát. Hodí se třeba pustit několikrát memtester podle počtu jader a dát každěmu o trošičku méně než RAM/jader, aby to těsně ještě neswapovalo.

    Pak by se chyba mohla projevit do hodiny? A můžeš experimentovat s vytahováním modulů. Klidně začni s tím, co ti vyšel podle dmidecode.
    11.7.2017 04:13 pc2005 | skóre: 38 | blog: GardenOfEdenConfiguration | liberec
    Rozbalit Rozbalit vše Re: ECC chyby a Dual-channel - který modul je vadný?
    Hmm tak zrovne můj i945gm čipset má vtipnej dualchannel kde to prokládá adresy jen když mají moduly stejnou kapacitu, jinak je řadí za sebe :-/. Ale to tvůj problém nebude.

    Osobně asi bude mít 100% účinnost to prohazování a testování modulů (pokud je chyba tam).

    Ale mohl by ses podívat do manuálu (našel jsem nějakej procík na základě tvé desky a od té generace datasheet, možná to je špatnej). Ale z těch voleb jako "Channel interleave wayness" mě teda přecházej oči :-D.

    Po zadání do googlu to našlo jednofórum, kde se to prokládání dá konfigurovat v BIOSu. Třeba tvoje deska to umí taky.
    11.7.2017 04:14 pc2005 | skóre: 38 | blog: GardenOfEdenConfiguration | liberec
    Rozbalit Rozbalit vše Re: ECC chyby a Dual-channel - který modul je vadný?
    13.7.2017 11:59 trubicoid2
    Rozbalit Rozbalit vše Re: ECC chyby a Dual-channel - který modul je vadný?
    jsou nejaky novy poznatky?
    Jendа avatar 13.7.2017 17:37 Jendа | skóre: 78 | blog: Jenda | JO70FB
    Rozbalit Rozbalit vše Re: ECC chyby a Dual-channel - který modul je vadný?
    Memtest86+ nic nenašel (vůbec nedetekuje, že mám ECC), memtester ji dokáže vyvolat.

    Vypnul jsem v BIOSu dual channel, dostal jsem jinou adresu směřující do slotu E1, vyndal jsem půlku pamětí (deska podle manuálu umí jenom 2, 4 nebo 8 slotů a já nemám žádný jiný DDR4 modul) a vyměnil modul E1 a chyba do hodiny nebyla (ale je to dost krátké testování), dal jsem do E1 zpátky podezřelý modul a chyba se objevila, ale pak jsem musel odejít.
    13.7.2017 18:02 pc2005 | skóre: 38 | blog: GardenOfEdenConfiguration | liberec
    Rozbalit Rozbalit vše Re: ECC chyby a Dual-channel - který modul je vadný?
    Jo jestli memtest86+ neumí ECC, tak je pro něj ta 1bit oprava transparentní.
    13.7.2017 18:28 trubicoid2
    Rozbalit Rozbalit vše Re: ECC chyby a Dual-channel - který modul je vadný?
    jo, memtester je na zahrati pameti dobrej :) s modulem jc42 jde teplota RAM sledovat pomoci sensors

    vetsina tech ECC chyb je citliva na teplotu

    taky zalezi, jestli je ten vadny modul alokovany a cteny nebo prazdny, vselijake ty setrice energie pak muzou zpusobit, ze se nedela ECC scrub nebo ne tak casto, kdezto cteni vzdy ECC kontrolu vyvola - memtester je na to dobry

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.