Portál AbcLinuxu, 21. května 2025 12:34
Zdravim vas damy a panove,
mate pls. nekdo zkusenost s vymenou HW, deska, ram, cpu AMD za intel Xeon na "zivem" systemu bez nutnosti reinstalace?
Mam nainstalovan ubuntu 20.04 s zfs a virtualizacema a chci vymenit HW.
Pojede to?
Dekuji za zkusenosti a nazory.
Diky za reakci.
Potrebuju ECC, vykonove mi xeon 2136 bohate staci a cenove je to stejne.
Já teď mám:
Na stránkách ASRocku u mojí MB ve specifikaci v sekci "Memory" uvádí:
"AMD Ryzen series CPUs (Vermeer) support DDR4 4733+(OC) / 4666(OC) / 4600(OC) / 4533(OC) / 4466(OC) / 4400(OC) / 4333(OC) / 4266(OC) / 4200(OC) / 4133(OC) / 4000(OC) / 3866(OC) / 3800(OC) / 3733(OC) / 3600(OC) / 3466(OC) / 3200 / 2933 / 2667 / 2400 / 2133 ECC & non-ECC, un-buffered memory*".
V "Memory QVL (Vermeer)" uvádějí, že mimo jiné podporuje:
"DDR4 Kingston 2666MHz 16GB KSM26ED8/16ME (ECC)".
Když jsem na netu hledal, jak poznám, že mi ECC RAM neběží v režimu NON ECC, tak jsem vždy našel, že by to měl ukazovat Memtest86+. Tak jsem jej pustil a ukazuje mi, že ECC je zapnuto viz. příloha.
Ano, bylo by to skvělé a taky by mě to zajímalo.
BTW: Andrejovi ten report funguje.
Super. Jak bude čas, tak to zkusím. Ten návod je už 3 roky starý, tak snad bude funkční.
Tak jsem se pustil do toho Maxem odkázeného postupu. Autor v něm jako příklad uvádí, že když máš RAM, která pracuje na 2400MHz, tak jí máš přetaktovat např. na 3200MHz a pokud ti OS z LiveUSB nenabootuje, tak máš jít třeba na 3000MHz a když se ti povede nabootovat, tak pak pokračovat dále viz. ten postup. Moje RAM pracuje na 2666MHz, takže jsem jí přetaktoval na 3600MHz a v pohodě nabootoval Live. Bál jsem se pak ještě přidat, protože s přetaktováváním nemám vůbec žádné zkušenosti a nechtěl jsem si paměti nějak poškodit. Každopádně z 2666MHz na 3600MHz mi přišlo dost. Vypnul jsem swap soubor, nainstaloval memtester a edac-utils a spustil test.
mint@mint:~$ sudo memtester 28G memtester version 4.3.0 (64-bit) Copyright (C) 2001-2012 Charles Cazabon. Licensed under the GNU General Public License version 2 (only). pagesize is 4096 pagesizemask is 0xfffffffffffff000 want 28672MB (30064771072 bytes) got 28672MB (30064771072 bytes), trying mlock ...locked. Loop 1: Stuck Address : testok Random Value : ok Compare XOR : ok Compare SUB : ok Compare MUL : ok Compare DIV : ok Compare OR : ok Compare AND : ok Sequential Increment: ok Solid Bits : ok Block Sequential : ok Checkerboard : ok Bit Spread : ok Bit Flip : ok Walking Ones : ok Walking Zeroes : ok 8-bit Writes : ok 16-bit Writes : ok
Tohle jelo asi 2 hodiny. Nejdéle z toho jel test na "Bit Flip", asi 40 minut a podle testu OK. Po dokončení testu se spustilo druhé kolo, takže to jsem stornoval.
Loop 2: Stuck Address : testing 7^C mint@mint:~$ edac-util --v edac-util: Error: No memory controller data found.
Bohužel ten druhý příkaz mi ale nic kloudného nevrátil. Myslím ale, že ECC by fungovat mělo. RAM jsem přetaktoval skoro na 4GHz a "Bit Flip ok". Pro test jsem použil Linux Mint 20.2 s jádrem 5.4. Raději bych aktuální jádro, ale neměl jsem to jak udělat.
Jeslti máš (nebo někdo) nějaký nápad jak se dostat k tomu výpisu, tak to klidně ještě zkusím. Klidně i s více přetaktovanou RAM, pokud mě někdo ujistí, že jí nezničím.
edac-utils --v
Nemají tam překlep. Při instalaci píšeš "edac-utils" a při aplikaci "edac-util". Nebyl jsem si tím ale jistý úplně a tak jsem to zkusil ještě jednou. Všechny fans jsem pustil naplno, u RAM jsem zvedl takt na 4000MHz a Live jsem v pohodě nabootoval. Test jsem ale do konce běžet nenechal, protože "edac-util --v" mi vracelo stejnou chybu jako včera. Ze zvědavosti jsem zkusil "inxi -m" a bylo vidět, že RAM moduly mají takt 4000MHz. Proč ale nefunguje "edac-util --v" nechápu. Třeba někdo něco poradí.
Ještě mě něco napadlo. Když pustíš "sudo memtester 28G", tak to pak píše "try mlock ..." "locked". Možná "mlock" znamená memory lock. Takže to nějak uzamče tu RAM a pak k tomu edac-util nemá přístup. Když jsem to včera při druhém kole stornoval, tak se možná ta RAM neodemkla. A dnes jsem to zkusil během testu, kdy je zamknutá, takže edac-util zase možná neměl přístup. Zkusím to pustit ještě jednou s parametrem "1" pro [loop] a po dokončení to možná už přístupné bude. Jdu na to. Pak napíšu.
Tak to bylo tím jádrem. Stáhl jsem ten Mint Edge s jádrem 5.11.*, který odkazoval Radek a tam už edac-util fungovalo. Jenomže 4000MHz bylo pořád stabilní a k žádným chybám nedocházelo a tak jsem si hrál s takty, až mi přestal fungovat pc. Jdu položit dotaz co s tím?
HOWEVER, things are not quite perfect. On that last line you will notice “1 UE”. That is an uncorrected error (UE), otherwise known as a two-bit error or a hard error. Two-bit errors cannot be corrected by ECC memory. What is supposed to happen when they occur is that they should be detected, logged and ideally the system should be immediately halted. These are considered fatal errors and they can easily cause data corruption if the system is not quickly halted and/or rebooted. Regrettably, only 2 of the 3 steps happened. The hard error was detected and it was logged, but the system kept running. The only reason that it’s the last line on that image is because we immediately took a screenshot just in case the system would halt, but that never happened.Možná, že Linux by se u two-bit chyby zastavil, těžko říct.
Tak jsem přetaktoval RAM na 4000MHz, pustil ten test a u testu na bit flips systém spadl. Nemyslím si, že by to bylo two-bit chybou, protože kdyby se systém korektně vypnul, tak by to zůstalo viset na hlášce "~ Vyjmětě prosím instalační médium a stiskněte ENTER". Takže si myslím, že 4000MHz už prostě bylo moc. Tak jsem to přenastavil na 3600MHz, pustil test znovu a tentokrát dojel do konce. Po zadání "sudo edac-util -v" jsem ale dostal stejnou chybu, jako včera. MOŽNÁ ještě zkusím nějaké distro s novějším jádrem, než 5.4.0-*. Moc se mi ale nechce ty RAMky takhle trápit. Uvidím.
Dobře, ještě to zkusím, i když už jsem nechtěl, protože teď jsem to zkoušel z Ubuntu 21.04 a tam mi edac-utils nešlo nainstalovat ani z terminálu, ani deb balík. Přitom byl pro Ubuntu 21.04, ale jádro hlásilo nějaký problém (už nevím jaký).
Díky
System kterej umi ECC ti predevsim bude reportovat v BIOSu ze to umi, a tamtez najdes informace o pripadnych chybach.V tom článku se píše:
This lack of settings severely hampers the overall ECC functionality, since a big part of it is that the motherboard should be able to log errors. Right now, no such logging capability exists.Takže MB ASRock X370 Taichi to neumí logovat (neuměla v době psaní článku), ale to podle mne neznamená, že neumí opravovat single-bit chyby.
Pretocenim ramky vetsinou nedosahnes ECC chyb, spis se to chova tak, ze bud jeste spolehlive funguje nebo uplne zdechne.Jak se dívám, tak v tom článku se místo zvýšení frekvence rozhodli pro změnu časování a pak na tom spustili Stress:
Instead of pushing up the memory frequency, we decided to cause instability by tightening the timings. Much to our surprise, the Crucial DDR4-2400 ECC modules proved to be quite remarkable. In order to cause instability we had to tighten the timings from 17-17-17-17-39 all the way down to 14-14-12-11-21. Sticking to Ubuntu for now, we ran the 'Stress' utility (sudo apt-get install stress) to stress the memory with 50 processes, each requiring 256MB, for a grand total of 12.8GB of heavy RAM usage.PS: případný návod pro Petra Fiedlera => místo frekvence změnit časování.
?
Tak doufam, ze kdyz nastane problem v HW RAM, jakoze se zmeni nejaky bit jinak nez "korektnim zapisem", tak to poznam.
Nechapu proc by nekdo pouzil non-ECC, kdyz ma za podobnou cenu ECC.
čekal bych, že to nabootuje rovnou bez nutnosti jakýchkoli úpravJako že se na úplně jiném hardware trefí jména síťovek? To je hodně odvážné očekávání...
Když jsem Clonezillou naklonoval OS z PC na NB, tak mi vše fungovalo hned. Jen jsem v /etc/hostname a /etc/hosts změnil název stroje a hotovo. Kdybych ale v jedné LAN neprovozoval oba stroje současně, nemusel jsem dělat ani to.
Kvôli tomuto sa pred rokmi začali nazývať názvy sieťových rozhraní podľa PCI slotuAno, to bylo nejlepší, přidal jsem grafickou kartu nebo SATA řadič a přejmenovaly se síťovky!
enp0s31f6 enp9s0 => enp10s0 enp3s0f0 enp3s0f1 enp4s0f0 enp4s0f1 enp16s0f0 => enp17s0f0 enp16s0f1 => enp17s0f1 enp17s0f0 => enp18s0f0 enp17s0f1 => enp18s0f1
Jede to bez problemu. Nechal jsem 18.04 s kernel 5.4.0-81-generic
- trochu rve nouveau driver, ale jede.
[ 54.146801] nouveau 0000:01:00.0: gr: DATA_ERROR 0000009c [] ch 3 [007fb16000 systemd-logind[1852]] subc 0 class 9297 mthd 0d78 data 00000004
Kontrola ECC jsem nasel:
- lshw -class memory
capabilities: ecc
configuration: errordetection=ecc
- dmidecode -t memory
Total Width: 72 bits ( bity navic pro ecc)
Data Width: 64 bits
Tak diky za poskytnute info.
Tiskni
Sdílej:
ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.