Portál AbcLinuxu, 4. května 2025 23:12

Dotaz: ECC chyby a Dual-channel - který modul je vadný?

Jendа avatar 10.7.2017 06:41 Jendа | skóre: 78 | blog: Jenda | JO70FB
ECC chyby a Dual-channel - který modul je vadný?
Přečteno: 904×
Odpovědět | Admin
Ahoj,

Asus Z10PE-D8 WS s dvěma CPU a 8x16 GB RAM ukazuje následující dvě zprávy:
mce: [Hardware Error]: Machine check events logged
EDAC sbridge MC0: HANDLING MCE MEMORY ERROR
EDAC sbridge MC0: CPU 12: Machine Check Event: 0 Bank 9: 8c000050000800c0
EDAC sbridge MC0: TSC 0 
EDAC sbridge MC0: ADDR 1485247000 
EDAC sbridge MC0: MISC 90000010001208c 
EDAC sbridge MC0: PROCESSOR 0:306f2 TIME 1497174376 SOCKET 1 APIC 20
EDAC MC0: 1 CE memory scrubbing error on CPU_SrcID#1_Ha#0_Chan#1_DIMM#0 (channel:1 slot:0 page:0x1485247 offset:0x0 grain:32 syndrome:0x0 -  area:DRAM err_code:0008:00c0 socket:1 ha:0 channel_mask:2 rank:0)
mce: [Hardware Error]: Machine check events logged
EDAC sbridge MC0: HANDLING MCE MEMORY ERROR
EDAC sbridge MC0: CPU 12: Machine Check Event: 0 Bank 7: 8c00004000010090
EDAC sbridge MC0: TSC 0 
EDAC sbridge MC0: ADDR 1485247540 
EDAC sbridge MC0: MISC 1527afa86 
EDAC sbridge MC0: PROCESSOR 0:306f2 TIME 1495475795 SOCKET 1 APIC 20
EDAC MC0: 1 CE memory read error on CPU_SrcID#1_Ha#0_Chan#0_DIMM#0 (channel:0 slot:0 page:0x1485247 offset:0x540 grain:32 syndrome:0x0 -  area:DRAM err_code:0001:0090 socket:1 ha:0 channel_mask:1 rank:0)
# edac-util -v
mc0: 0 Uncorrected Errors with no DIMM info
mc0: 0 Corrected Errors with no DIMM info
mc0: csrow0: 0 Uncorrected Errors
mc0: csrow0: CPU_SrcID#1_Ha#0_Chan#0_DIMM#0: 26 Corrected Errors
mc0: csrow0: CPU_SrcID#1_Ha#0_Chan#1_DIMM#0: 66 Corrected Errors
mc0: csrow0: CPU_SrcID#1_Ha#1_Chan#0_DIMM#0: 0 Corrected Errors
mc0: csrow0: CPU_SrcID#1_Ha#1_Chan#1_DIMM#0: 0 Corrected Errors
mc1: 0 Uncorrected Errors with no DIMM info
mc1: 0 Corrected Errors with no DIMM info
mc1: csrow0: 0 Uncorrected Errors
mc1: csrow0: CPU_SrcID#0_Ha#0_Chan#0_DIMM#0: 0 Corrected Errors
mc1: csrow0: CPU_SrcID#0_Ha#0_Chan#1_DIMM#0: 0 Corrected Errors
mc1: csrow0: CPU_SrcID#0_Ha#1_Chan#0_DIMM#0: 0 Corrected Errors
mc1: csrow0: CPU_SrcID#0_Ha#1_Chan#1_DIMM#0: 0 Corrected Errors
Přečetl jsem si adresu, na kterou to nadává (0x1485247XXX), a v dmidecode našel následující:
Handle 0x006F, DMI type 16, 23 bytes
Physical Memory Array
        Location: System Board Or Motherboard
        Use: System Memory
        Error Correction Type: Multi-bit ECC
        Maximum Capacity: 128 GB
        Error Information Handle: Not Provided
        Number Of Devices: 2

Handle 0x0070, DMI type 19, 31 bytes
Memory Array Mapped Address
        Starting Address: 0x01000000000
        Ending Address: 0x017FFFFFFFF
        Range Size: 32 GB
        Physical Array Handle: 0x006F
        Partition Width: 2

Handle 0x0071, DMI type 17, 34 bytes
Memory Device
        Array Handle: 0x006F
        Error Information Handle: Not Provided
        Total Width: 72 bits
        Data Width: 64 bits
        Size: 16384 MB
        Form Factor: DIMM
        Set: None
        Locator: DIMM_E1
        Bank Locator: NODE 3
        Type: Other
        Type Detail: Synchronous
        Speed: 2133 MHz
        Manufacturer: Micron
        Serial Number: 112718E3
        Asset Tag: DIMM_E1_AssetTag
        Part Number: 36ASF2G72PZ-2G1A2  
        Rank: 2
        Configured Clock Speed: 2133 MHz

Handle 0x0072, DMI type 20, 35 bytes
Memory Device Mapped Address
        Starting Address: 0x01000000000
        Ending Address: 0x013FFFFFFFF
        Range Size: 16 GB
        Physical Device Handle: 0x0071
        Memory Array Mapped Address Handle: 0x0070
        Partition Row Position: 1

Handle 0x0073, DMI type 17, 34 bytes
Memory Device
        Array Handle: 0x006F
        Error Information Handle: Not Provided
        Total Width: 72 bits
        Data Width: 64 bits
        Size: 16384 MB
        Form Factor: DIMM
        Set: None
        Locator: DIMM_F1
        Bank Locator: NODE 3
        Type: Other
        Type Detail: Synchronous
        Speed: 2133 MHz
        Manufacturer: Micron
        Serial Number: 11271993
        Asset Tag: DIMM_F1_AssetTag
        Part Number: 36ASF2G72PZ-2G1A2  
        Rank: 2
        Configured Clock Speed: 2133 MHz

Handle 0x0074, DMI type 20, 35 bytes
Memory Device Mapped Address
        Starting Address: 0x01400000000
        Ending Address: 0x017FFFFFFFF
        Range Size: 16 GB
        Physical Device Handle: 0x0073
        Memory Array Mapped Address Handle: 0x0070
        Partition Row Position: 1

Handle 0x0075, DMI type 16, 23 bytes
Physical Memory Array
        Location: System Board Or Motherboard
        Use: System Memory
        Error Correction Type: Multi-bit ECC
        Maximum Capacity: 128 GB
        Error Information Handle: Not Provided
        Number Of Devices: 2
Sloty na desce jsou fyzicky popsané DIMM_A1 až H1 a adresa, ve které došlo k chybě, spadá do DIMM_F1. Jenže mi není jasné, jak funguje ten dual channel - naivně jsem si myslel, že paměť interleavuje po malých blocích (šířka sběrnice nebo cacheline), jenže v tom dmidecode je vidět, že paměťové moduly jdou po 16 GiB. Není možné, že je chyba třeba i v modulu DIMM_E1?
Nástroje: Začni sledovat (1) ?Zašle upozornění na váš email při vložení nového komentáře.

Odpovědi

10.7.2017 18:22 Trubicoid2
Rozbalit Rozbalit vše Re: ECC chyby a Dual-channel - který modul je vadný?
Odpovědět | | Sbalit | Link | Blokovat | Admin
Bych tomu dmidecode moc nevěřil. Díky tomu interleave to může být v libovolným dimmu u příslušnýho CPU. Měl jsem zato, že se interleavuje po 64 nebo 128b.

Nejlepší možnost je postupně dimmy vyndávat, až chyba zmizí, tak to byl on :)
Jendа avatar 10.7.2017 18:57 Jendа | skóre: 78 | blog: Jenda | JO70FB
Rozbalit Rozbalit vše Re: ECC chyby a Dual-channel - který modul je vadný?
Hm, super.

To má dva problémy: DIMMy jsou blbě dostupné pod chladičem CPU a chyba se objevuje občas.
10.7.2017 20:42 Trubicoid2
Rozbalit Rozbalit vše Re: ECC chyby a Dual-channel - který modul je vadný?
Chladič blbý. Ale třeba jenom tu plastovou packu na jedné straně otevřeš? Bez vytahování modulu.

Že se chyba objevuje jen občas - tomu by se dalo pomoct. Paměti prohřát. Hodí se třeba pustit několikrát memtester podle počtu jader a dát každěmu o trošičku méně než RAM/jader, aby to těsně ještě neswapovalo.

Pak by se chyba mohla projevit do hodiny? A můžeš experimentovat s vytahováním modulů. Klidně začni s tím, co ti vyšel podle dmidecode.
11.7.2017 04:13 pc2005 | skóre: 38 | blog: GardenOfEdenConfiguration | liberec
Rozbalit Rozbalit vše Re: ECC chyby a Dual-channel - který modul je vadný?
Odpovědět | | Sbalit | Link | Blokovat | Admin
Hmm tak zrovne můj i945gm čipset má vtipnej dualchannel kde to prokládá adresy jen když mají moduly stejnou kapacitu, jinak je řadí za sebe :-/. Ale to tvůj problém nebude.

Osobně asi bude mít 100% účinnost to prohazování a testování modulů (pokud je chyba tam).

Ale mohl by ses podívat do manuálu (našel jsem nějakej procík na základě tvé desky a od té generace datasheet, možná to je špatnej). Ale z těch voleb jako "Channel interleave wayness" mě teda přecházej oči :-D.

Po zadání do googlu to našlo jednofórum, kde se to prokládání dá konfigurovat v BIOSu. Třeba tvoje deska to umí taky.
Intel meltdown a = arr[x[0]&1]; karma | 帮帮我,我被锁在中国房
11.7.2017 04:14 pc2005 | skóre: 38 | blog: GardenOfEdenConfiguration | liberec
Rozbalit Rozbalit vše Re: ECC chyby a Dual-channel - který modul je vadný?
13.7.2017 11:59 trubicoid2
Rozbalit Rozbalit vše Re: ECC chyby a Dual-channel - který modul je vadný?
Odpovědět | | Sbalit | Link | Blokovat | Admin
jsou nejaky novy poznatky?
Jendа avatar 13.7.2017 17:37 Jendа | skóre: 78 | blog: Jenda | JO70FB
Rozbalit Rozbalit vše Re: ECC chyby a Dual-channel - který modul je vadný?
Memtest86+ nic nenašel (vůbec nedetekuje, že mám ECC), memtester ji dokáže vyvolat.

Vypnul jsem v BIOSu dual channel, dostal jsem jinou adresu směřující do slotu E1, vyndal jsem půlku pamětí (deska podle manuálu umí jenom 2, 4 nebo 8 slotů a já nemám žádný jiný DDR4 modul) a vyměnil modul E1 a chyba do hodiny nebyla (ale je to dost krátké testování), dal jsem do E1 zpátky podezřelý modul a chyba se objevila, ale pak jsem musel odejít.
13.7.2017 18:02 pc2005 | skóre: 38 | blog: GardenOfEdenConfiguration | liberec
Rozbalit Rozbalit vše Re: ECC chyby a Dual-channel - který modul je vadný?
Jo jestli memtest86+ neumí ECC, tak je pro něj ta 1bit oprava transparentní.
13.7.2017 18:28 trubicoid2
Rozbalit Rozbalit vše Re: ECC chyby a Dual-channel - který modul je vadný?
jo, memtester je na zahrati pameti dobrej :) s modulem jc42 jde teplota RAM sledovat pomoci sensors

vetsina tech ECC chyb je citliva na teplotu

taky zalezi, jestli je ten vadny modul alokovany a cteny nebo prazdny, vselijake ty setrice energie pak muzou zpusobit, ze se nedela ECC scrub nebo ne tak casto, kdezto cteni vzdy ECC kontrolu vyvola - memtester je na to dobry

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.