Portál AbcLinuxu, 5. května 2025 23:18

Dotaz: mce: [Hardware Error] - dělat si starosti nebo ignorovat?

6.5.2014 00:45 mpisum
mce: [Hardware Error] - dělat si starosti nebo ignorovat?
Přečteno: 404×
Odpovědět | Admin
Ahoj. Na dvou nových identických strojích se pravidelně cca 1x denně objevuje v dmesg hláška "mce: [Hardware Error]: Machine check events logged". HW: supermicro case + supermicro zdroj + supermicro deska, CPU Intel(R) Xeon(R) CPU E3-1230, 32 GB RAM, adaptec hw raid karta. Na obou strojích běží proxmox virtualizace (pouze KVM). Teploty komponent jsou v pohodě, zkoušel jsem i ladit výkon ventilátoru, jestli se to někde nepřehřívá, ale toto vypisuje i pokud má teplota CPU 28°C a teplota okolních komponent je podobná (krom disků).

# tail -n 20 /var/log/mcelog
MCG status:
MCi status:
Corrected error
Error enabled
MCA: Internal parity error
STATUS 90000040000f0005 MCGSTATUS 0
MCGCAP c09 APICID 2 SOCKETID 0 
CPUID Vendor Intel Family 6 Model 60
Hardware event. This is not a software error.
MCE 0
CPU 0 BANK 0 
TIME 1399288245 Mon May  5 13:10:45 2014
MCG status:
MCi status:
Corrected error
Error enabled
MCA: Internal parity error
STATUS 90000040000f0005 MCGSTATUS 0
MCGCAP c09 APICID 0 SOCKETID 0 
CPUID Vendor Intel Family 6 Model 60

# mcelog --client
Memory errors
SOCKET 0 CHANNEL 0 DIMM 0
DMI_NAME "P1-DIMMA1" DMI_LOCATION "P0_Node0_Channel0_Dimm0"
corrected memory errors:
	0 total
	0 in 24h
uncorrected memory errors:
	0 total
	0 in 24h

SOCKET 0 CHANNEL 0 DIMM 1
DMI_NAME "P1-DIMMA2" DMI_LOCATION "P0_Node0_Channel0_Dimm1"
corrected memory errors:
	0 total
	0 in 24h
uncorrected memory errors:
	0 total
	0 in 24h

SOCKET 0 CHANNEL 1 DIMM 0
DMI_NAME "P1-DIMMB1" DMI_LOCATION "P0_Node0_Channel1_Dimm0"
corrected memory errors:
	0 total
	0 in 24h
uncorrected memory errors:
	0 total
	0 in 24h

SOCKET 0 CHANNEL 1 DIMM 1
DMI_NAME "P1-DIMMB2" DMI_LOCATION "P0_Node0_Channel1_Dimm1"
corrected memory errors:
	0 total
	0 in 24h
uncorrected memory errors:
	0 total
	0 in 24h
Podle hlášek to vypadá, že chyba byla vždy opravena. Jenomže nevím, kde se chyba objevuje? RAM, CPU cache, QPI, ...? Je potřeba si dělat starosti nebo toto může být normální chování tohoto nového HW? Jde o to, že se to vyskytuje na obou strojích, tak mi přijde, že je to spíš vlastnost, ale nevím ... Jinak stroje běží naprosto spolehlivě.
Nástroje: Začni sledovat (0) ?Zašle upozornění na váš email při vložení nového komentáře.

Odpovědi

6.5.2014 11:37 trubicoid
Rozbalit Rozbalit vše Re: mce: [Hardware Error] - dělat si starosti nebo ignorovat?
Odpovědět | | Sbalit | Link | Blokovat | Admin
no a nedela to na nahodou cron, kterej jednou za den pusti mcelog s nejakyma parametrama a ten pak neco napise do /var/log/mcelog?

jestli mas ecc pameti, tak jeste zkus edac-util

jinak na amd se ty mce dekoduji uz v jadre a mce i edac chyby jdou hned do dmesg a je z toho poznat, co se deje; mcelog na amd vubec neni potreba a taky nic nedela
6.5.2014 18:45 mpisum
Rozbalit Rozbalit vše Re: mce: [Hardware Error] - dělat si starosti nebo ignorovat?
Cron to dělat nemůže. Ještě před tím než jsem měl mcelog nainstalovaný to vypisovalo Hardware errory do dmesg, ale nevěděl jsem čím to je, proto jsem tam nainstaloval mcelog. ECC paměti tam jsou, ale edac tam nefunguje.

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.