Na čem aktuálně pracují vývojáři GNOME a KDE Plasma? Pravidelný přehled novinek v Týden v GNOME a Týden v KDE Plasma.
Před 25 lety zaplavil celý svět virus ILOVEYOU. Virus se šířil e-mailem, jenž nesl přílohu s názvem I Love You. Příjemci, zvědavému, kdo se do něj zamiloval, pak program spuštěný otevřením přílohy načetl z adresáře e-mailové adresy a na ně pak „milostný vzkaz“ poslal dál. Škody vznikaly jak zahlcením e-mailových serverů, tak i druhou činností viru, kterou bylo přemazání souborů uložených v napadeném počítači.
Byla vydána nová major verze 5.0.0 svobodného multiplatformního nástroje BleachBit (GitHub, Wikipedie) určeného především k efektivnímu čištění disku od nepotřebných souborů.
Na čem pracují vývojáři webového prohlížeče Ladybird (GitHub)? Byl publikován přehled vývoje za duben (YouTube).
Provozovatel čínské sociální sítě TikTok dostal v Evropské unii pokutu 530 milionů eur (13,2 miliardy Kč) za nedostatky při ochraně osobních údajů. Ve svém oznámení to dnes uvedla irská Komise pro ochranu údajů (DPC), která jedná jménem EU. Zároveň TikToku nařídila, že pokud správu dat neuvede do šesti měsíců do souladu s požadavky, musí přestat posílat data o unijních uživatelích do Číny. TikTok uvedl, že se proti rozhodnutí odvolá.
Společnost JetBrains uvolnila Mellum, tj. svůj velký jazykový model (LLM) pro vývojáře, jako open source. Mellum podporuje programovací jazyky Java, Kotlin, Python, Go, PHP, C, C++, C#, JavaScript, TypeScript, CSS, HTML, Rust a Ruby.
Vývojáři Kali Linuxu upozorňují na nový klíč pro podepisování balíčků. K původnímu klíči ztratili přístup.
V březnu loňského roku přestal být Redis svobodný. Společnost Redis Labs jej přelicencovala z licence BSD na nesvobodné licence Redis Source Available License (RSALv2) a Server Side Public License (SSPLv1). Hned o pár dní později vznikly svobodné forky Redisu s názvy Valkey a Redict. Dnes bylo oznámeno, že Redis je opět svobodný. S nejnovější verzí 8 je k dispozici také pod licencí AGPLv3.
Oficiální ceny Raspberry Pi Compute Modulů 4 klesly o 5 dolarů (4 GB varianty), respektive o 10 dolarů (8 GB varianty).
Byla vydána beta verze openSUSE Leap 16. Ve výchozím nastavení s novým instalátorem Agama.
May 02 21:34:38 ctx-aaa-be2 kernel: mce: [Hardware Error]: Machine check events logged May 02 21:34:38 ctx-aaa-be2 kernel: EDAC sbridge MC1: HANDLING MCE MEMORY ERROR May 02 21:34:38 ctx-aaa-be2 kernel: EDAC sbridge MC1: CPU 26: Machine Check Event: 0 Bank 9: 8c000044000800c1 May 02 21:34:38 ctx-aaa-be2 kernel: EDAC sbridge MC1: TSC 0 May 02 21:34:38 ctx-aaa-be2 kernel: EDAC sbridge MC1: ADDR c13111000 May 02 21:34:38 ctx-aaa-be2 kernel: EDAC sbridge MC1: MISC 90000040004088c May 02 21:34:38 ctx-aaa-be2 kernel: EDAC sbridge MC1: PROCESSOR 0:206d7 TIME 1493753678 SOCKET 1 APIC 25 May 02 21:34:38 ctx-aaa-be2 kernel: EDAC sbridge MC1: TSC 0 May 02 21:34:38 ctx-aaa-be2 kernel: EDAC sbridge MC1: ADDR c13111000 May 02 21:34:38 ctx-aaa-be2 kernel: EDAC sbridge MC1: MISC 90000040004088c May 02 21:34:38 ctx-aaa-be2 kernel: EDAC sbridge MC1: PROCESSOR 0:206d7 TIME 1493753678 SOCKET 1 APIC 25 May 02 21:34:38 ctx-aaa-be2 mcelog[1143]: Hardware event. This is not a software error. May 02 21:34:38 ctx-aaa-be2 mcelog[1143]: MCE 0 May 02 21:34:38 ctx-aaa-be2 mcelog[1143]: CPU 26 BANK 9 May 02 21:34:38 ctx-aaa-be2 mcelog[1143]: MISC 90000040004088c ADDR c13111000 May 02 21:34:38 ctx-aaa-be2 mcelog[1143]: TIME 1493753678 Tue May 2 21:34:38 2017 May 02 21:34:38 ctx-aaa-be2 mcelog[1143]: MCG status: May 02 21:34:38 ctx-aaa-be2 mcelog[1143]: MCi status: May 02 21:34:38 ctx-aaa-be2 mcelog[1143]: Corrected error May 02 21:34:38 ctx-aaa-be2 mcelog[1143]: MCi_MISC register valid May 02 21:34:38 ctx-aaa-be2 mcelog[1143]: MCi_ADDR register valid May 02 21:34:38 ctx-aaa-be2 mcelog[1143]: MCA: MEMORY CONTROLLER MS_CHANNEL1_ERR May 02 21:34:38 ctx-aaa-be2 mcelog[1143]: Transaction: Memory scrubbing error May 02 21:34:38 ctx-aaa-be2 mcelog[1143]: MemCtrl: Corrected patrol scrub error May 02 21:34:38 ctx-aaa-be2 mcelog[1143]: May 02 21:34:38 ctx-aaa-be2 mcelog[1143]: STATUS 8c000044000800c1 MCGSTATUS 0 May 02 21:34:38 ctx-aaa-be2 mcelog[1143]: MCGCAP 1000814 APICID 25 SOCKETID 1 May 02 21:34:38 ctx-aaa-be2 mcelog[1143]: CPUID Vendor Intel Family 6 Model 45 May 02 21:34:39 ctx-aaa-be2 kernel: EDAC MC1: 1 CE memory scrubbing error on CPU_SrcID#1_Ha#0_Chan#1_DIMM#0 (channel:1 slot:0 page:0xc13111 offset:0x0 grain:32 syndrome:0x0 - area:DRAM err_code:0008:00c1 socket:1 ha:0Chodi to nekolikrat denne, ruzne CPU, ruzny BANK, ale zda se, ze stejny kanal radice (MEMORY CONTROLLER MS_CHANNEL1_ERR). Myslim si, ze je to HW problem, ale cely den bezici diagnostika pameti/cpu nic nenasla. Myslim, ze problem je nekde v CPU nebo na desce, ale diky ECC se chyby neprojevi do OS tak, ze by server spadl. HP se nechce toto moc uznat jak HW problem. Chyby ve vypis nize s casem narustaji.
[root@ctx-aaa-be2 ~]# grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count /sys/devices/system/edac/mc/mc0/csrow0/ch0_ce_count:0 /sys/devices/system/edac/mc/mc0/csrow0/ch1_ce_count:0 /sys/devices/system/edac/mc/mc0/csrow0/ch2_ce_count:0 /sys/devices/system/edac/mc/mc1/csrow0/ch0_ce_count:0 /sys/devices/system/edac/mc/mc1/csrow0/ch1_ce_count:65 /sys/devices/system/edac/mc/mc1/csrow0/ch2_ce_count:30Otazky zni: 1. mam se tim dal zabyvat a tlacit do vymeny HW? (zatim to nicemu nevadi) 2. existuje nejaka diagnostika, ktera by ukazala, co je kde spatne? Zatim me napadlo pouze prohodit CPU mezi sebou, ev. prehazet nejak pameti. Diky za tipy. A.
HP se nechce toto moc uznat jak HW problem.Jak dlouho bude ten server v záruce? Pokud už dlouho ne, tak bych to řešil co nejdřív, ono se to zlepšovat nebude. Ale časem budou aspoň naskakovat chyby v memtestu (nebo v tom co jsi na tom serveru pouštěl, umí to EDAC? Pokud ne, tak by to tu chybu asi potichu přešlo...). Ještě je možný že je problém se DRAM slotem (to by se ale po vyndání a zandání DRAM modulů nejspíš zase rozběhlo), řadičem a nebo někde na plošňáku, ale ty poslední dva by byly rozhodně HW chyba a HP kecá. Taky může být problém se zdrojem (mě se špatným zdrojem blikaly pixely v ASCII konzoli jejíž framebuffer byl v system RAM), ale zase do serveru od HP nemůžou dát nějakej levnej eurocase za 400 Kč z výprodeje
[joke] Alternativou je dát ten server dál od vašeho reaktoru [/joke]Dobrej for
Je v nem 48GB RAM, EDAC umi, prave proto to nepada, ale jen reportuje skrz HP utility chyby.Já myslel jestli ty utility pro testování RAM umí logovat hlášení z EDAC (klasickej memtest co se bootuje z diskety to IMO neumí). Pokud má na to HP vlastní memtest (nedivil bych se, on tu klasickou PC platformu často dost ohejbá) a pokud jeho memtest EDAC umí, tak ty chyby z něj by měly být dostatečné pro uznání hw chyby (ale asi záleží na podmínkách té smlouvy o podpoře). Pokud ten jejich memtest EDAC umí a žádný chyby nejsou hlášeny, tak je to divné. Pokud by HP memtest EDAC hlášení neuměl, tak logicky žádné chyby nebudou (ECC je potichu opraví ... zatím).
lineární 9:8Nn když máš 8 bitů dat a 1 bit parity, tak si schválně zkus, že při změně jednoho bitu nedokážeš z té parity vydedukovat kterej to byl (což potřebuješ pro 1 bit opravu).
Tak teď jsem se ztratil, netvrdíš tady, že velký ECC moduly mají skoro stejně bitů jako neECC, tedy že ten poměr se blíží 1:1?Ano přesně to tvrdím. 64 bitová RAM má 72 bitů pokud je ECC (+8 ECC slovo), 128 bitová RAM by měla 137 bitů pokud by byla ECC (+9 ECC slovo). Pokud budou jednou ECC HBM v počítačích, tak ty by klidně mohli mít třeba 4096 bitové slovo. Hypotetická RAM se slovem dlouhým 1 milion bitů by v ECC provedení měla 1 milion a 20 bitů délku. Jejich poměr by byl víc a víc blízký 1:1.
A taky se nebavíme obecně o hamming kódech, ale právě o ECC pamětech, že?V tom případě musíš zahrnout ECC třeba pomocí TMR (Triple modular redundancy), kde by pro 64 bitovou RAM bylo dalších 64+64 bitů pro opravu. Ono jde o to kolik těch bitů chceš opravovat. Pokud jeden bit z 64, nebo tisíc bitů z miliónu, nebo všechny v daném slově ... tak se to pak projeví na délce parity.
Viz třeba tento.Když se koukneš na stránku 3, tabulku 1, tak jaký poměr datových a celkových bitů je pro poslední dva řádky?
protože jsem ještě neviděl standartní DDR modul s šířkou větší než 64 bitRambus DRAM mělo 16bitů. Jedna vývojová deska od TI měla tuším jen 32bitů a jak jsi linkoval alteru, tak zrovna u FPGA je jedno kolik máš bitů pro data i pro ECC. Hlavně ECC není zrovna standardní aplikace. Pokud bysme se bavili o speciálních a historických strojích tak tam byly datová slova o šířce jiné než 2^n. Stejně tak můžeš mít ECC pro framy v FPGA. Tam je to odhadem tak tisíce bitů vůči 32 bitům (záleží na architektuře) a samozřejmě nejrůznější DSP budou mít taky speciální šířku slova.
A taky nevím proč šířce říkáš velikost?To jsem psal kde? o_O ... O velikosti jsi psal jenom ty. Jinak ano pro 64bit modul s tím 8bit ECC bude celková kapacita RAM modulu podle toho poměru 9:8, ale moc užitečná hodnota to není :-/.
Nebo bys chtěl třeba kvůli jednomu bytu číst několik okolních adres, aby to bylo pomalejší, hlavně že ušetříš paritní bity, který tam stejně jsou z výroby?Jestli to bylo k tomu TMR, tak tam budou tři sady RAM modulů (v zásadě takovej RAID). Celková kapacita RAM modulů pak bude trojnásobná.
To jsem psal kde? o_O ... O velikosti jsi psal jenom ty.no, já psal od začátku, že je poměr 9:8 a nezávisí na velikosti, k čemuž tys napsal, že pro velké velikosti to půjde k 1:1 a až pak jsem pochopil, že mluvíš o šířce a nee velikosti tak hlavně že jsme se pochopili :)
Vravel som o opakovaní prenosu, nie o poškodení zapísaných údajov.Pak nechápu proč taháš retry do diskuze o poškození zapsaných údajů.
Ak ECC skoriguje chybu, a nepresiahne to chybovosť uznávanú ako medzník na reklamáciu, tak ECC funguje podľa očakávaní.Ne, pokud má v běžném provozu ECC paměť periodický výskyt chyby na stejném místě, tak je to zmetek z výroby, kde měli tu řádku DRAM buněk vyměnit za funkční spare.
Ak je to nepodarok z výrobyVšak jsem tazateli psal, že ho HP nejspíš jen blokuje na takovém tom klasickém first line support firewallu
Pokud bys u tom RAM modulu dělal retry, tak se zacyklíš, protože ať tam zapíšeš co zapíšeš, tak budeš mít pořád chybu (ten poškozenej bit je efektivně černá díra - a z té informaci ven nedostanešTo máš potom dosť skreslené informácie o tom, ako funguje ECC.). A jistě sám uznáš, že RAM modul při jehož používání se zacykliš v retry, je dost k ničemu.
[root@ctx-aaa-be2 ~]# mcelog --client Memory errors SOCKET 1 CHANNEL any DIMM any corrected memory errors: 35 total 0 in 24h uncorrected memory errors: 0 total 0 in 24h SOCKET 1 CHANNEL 1 DIMM any corrected memory errors: 35 total 0 in 24h uncorrected memory errors: 0 total 0 in 24h Per page corrected memory statistics: bb310e000: total 12 seen "12 in 24h" offline triggered bb310f000: total 2 seen "2 in 24h" online bb3111000: total 10 seen "2 in 24h" online bb3112000: total 5 seen "2 in 24h" online c13111000: total 2 seen "1 in 24h" online c13112000: total 2 seen "1 in 24h" onlineTak a ted jak z toho poznat, ktery DIMM to je?
hpasmcli> show dimm DIMM Configuration ------------------ Processor #: 1 Module #: 1 Present: Yes Form Factor: 9h Memory Type: DDR3(18h) Size: 8192 MB Speed: 1600 MHz Supports Lock Step: No Configured for Lock Step: No Status: Ok Processor #: 1 Module #: 3 Present: Yes Form Factor: 9h Memory Type: DDR3(18h) Size: 8192 MB Speed: 1600 MHz Supports Lock Step: No Configured for Lock Step: No Status: Ok Processor #: 1 Module #: 8 Present: Yes Form Factor: 9h Memory Type: DDR3(18h) Size: 8192 MB Speed: 1600 MHz Supports Lock Step: No Configured for Lock Step: No Status: Ok Processor #: 2 Module #: 1 Present: Yes Form Factor: 9h Memory Type: DDR3(18h) Size: 8192 MB Speed: 1600 MHz Supports Lock Step: No Configured for Lock Step: No Status: Ok Processor #: 2 Module #: 3 Present: Yes Form Factor: 9h Memory Type: DDR3(18h) Size: 8192 MB Speed: 1600 MHz Supports Lock Step: No Configured for Lock Step: No Status: Ok Processor #: 2 Module #: 8 Present: Yes Form Factor: 9h Memory Type: DDR3(18h) Size: 8192 MB Speed: 1600 MHz Supports Lock Step: No Configured for Lock Step: No Status: Ok hpasmcli>Kazdopadne dekuji za nakopnuti. A.
MCE 19 CPU 4 BANK 5 MISC 204208f886 ADDR 9ef754fc0 TIME 1493880142 Thu May 4 08:42:22 2017 MCG status: MCi status: Error overflow Corrected error MCi_MISC register valid MCi_ADDR register valid MCA: MEMORY CONTROLLER RD_CHANNEL1_ERR Transaction: Memory read error STATUS cc02110000010091 MCGSTATUS 0 MCGCAP 1000c14 APICID 8 SOCKETID 0 CPUID Vendor Intel Family 6 Model 45 Hardware event. This is not a software error.
[root@ctx-aaa-be2 ~]# edac-util -v mc0: 0 Uncorrected Errors with no DIMM info mc0: 0 Corrected Errors with no DIMM info mc0: csrow0: 0 Uncorrected Errors mc0: csrow0: CPU_SrcID#0_Ha#0_Chan#0_DIMM#0: 0 Corrected Errors mc0: csrow0: CPU_SrcID#0_Ha#0_Chan#1_DIMM#0: 0 Corrected Errors mc0: csrow0: CPU_SrcID#0_Ha#0_Chan#2_DIMM#0: 0 Corrected Errors mc1: 0 Uncorrected Errors with no DIMM info mc1: 0 Corrected Errors with no DIMM info mc1: csrow0: 0 Uncorrected Errors mc1: csrow0: CPU_SrcID#1_Ha#0_Chan#0_DIMM#0: 0 Corrected Errors mc1: csrow0: CPU_SrcID#1_Ha#0_Chan#1_DIMM#0: 68 Corrected Errors mc1: csrow0: CPU_SrcID#1_Ha#0_Chan#2_DIMM#0: 30 Corrected Errors [root@ctx-aaa-be2 ~]#A podle navodu k blade jsou to sloty 3B a 8C u CPU1. Jdu s tim na HP. Dam vedet, jak to dopadlo. Diky vsem. A.
These messages does not indicate a hardware failure, To ensure efficient Firmware First handling of memory failures, HPE recommends disabling EDAC. HPE also recommends disabling the correctable error detection functionality of the Linux kernel's Machine Check Event (MCE) handling. This is accomplished by setting the boot parameter "mce=ignore_ce". This boot parameter also disables logging of such events via mcelog. Details are in article http://h20565.www2.hpe.com/hpsc/doc/public/display?sp4ts.oid=5379860&docLocale=en_US&docId=emr_na-c04183538 1. Update BIOS to Version: 2015.06.01(1 Oct 2015) http://h20564.www2.hpe.com/hpsc/swd/public/detail?sp4ts.oid=5196168&swItemId=MTX_7de076891ced47ae8a1b6dd90f&swEnvOid=4176#tab2 2. Launch insight diagnostics, from insight diagnostics, Select quick test for memory and test all DIMMs, check for any DIMM failure. 3. Save advanced offline survey and check for any DIMM errors in SPD data as per step 4 e,f,g in link below http://h20565.www2.hpe.com/hpsc/doc/public/display?sp4ts.oid=316593&docId=emr_na-c01965669&docLocale=en_US 4. Capture a new AHS log.Prijde mi ujete, ze kvuli dvema obyc. 8GB DIMM palim tolik casu...
HP Advanced Memory Error Detection Technology Because of higher memory error frequency, some server administrators are unnecessarily shutting down servers to replace DIMMs that experience correctable errors. The best way to prevent unnecessary DIMM replacements is to filter out superfluous errors and identify critical errors that can lead to a shutdown. That‟s the goal of HP Advanced Memory Error Detection Technology.A.
root@ctx-aaa-be2 ~]# hpasmcli -s show Invalid Arguments SHOW ASR SHOW BOOT SHOW DIMM [ SPD ] SHOW F1 SHOW FANS SHOW HT SHOW IML SHOW IPL SHOW NAME SHOW PORTMAP SHOW POWERMETER SHOW POWERSUPPLY SHOW PXE SHOW SERIAL [ BIOS | EMBEDDED | VIRTUAL ] SHOW SERVER SHOW TEMP SHOW TPM SHOW UID SHOW WOL [root@ctx-aaa-be2 ~]# [root@ctx-aaa-be2 ~]# hpasmcli -s show\ iml Event: 15 Added: 04/18/2017 09:59 INFO: System Revision - Firmware flashed (iLO 4 2.50). Event: 16 Added: 04/18/2017 09:37 INFO: System Revision - Firmware flashed (ProLiant System BIOS - I31 06/01/2015). Event: 17 Added: 04/21/2017 09:17 INFO: Maintenance Note - Maintenance note: Intelligent Provisioning was loaded.. Event: 18 Added: 04/21/2017 09:21 INFO: Maintenance Note - Maintenance note: Intelligent Provisioning was loaded..A.
Uvedl jste jako příklad z dmesg jediný výskyt chyby. V tom ústřižku výpisu jsou pro mě nejzajímavější tyto řádky:
EDAC sbridge MC1: PROCESSOR 0:206d7 TIME 1493753678 SOCKET 1 APIC 25
MCE 0
CPU 26 BANK 9
MISC 90000040004088c ADDR c13111000
Podle mého identifikují poměrně přesně procesor, řadič RAM, kanál RAM a DIMM - a adresa se taky hodí. Jenom z toho výpisu není jasné mapování na fyzické popisky na plošáku motherboardu / v dokumentaci. Asi by to šlo zmapovat metodou pokus/omyl, ale spíš jako východisko z nouze. Něco by se možná dalo vykoukat z výpisu "dmidecode". Takhle kdyby se to dalo spárovat až na sériová čísla DIMMů... ale to by byla velká klika. Tohle mapování na popisky výrobce boardu je podle mého jediná/hlavní výhoda přístupu skrz doporučené GUI/API HP ILO.
Obecně chyba v RAMce podle mého neznamená nutně chybu samotného DIMMu. Mohlo by to znamenat špatný kontakt v patici nebo někde jinde po cestě, případně třeba vadnoucí elyty ve VRM. RAMka má svůj vlastní VRM, na motherboardu s více procesory teoreticky může mít každý procesor svůj vlastní VRM pro RAMku (vymejšlím si). Klika je, že tu chybu hlásí řadič paměti, tzn. blok na hraně procesorového čipu = je vcelku jistota, že to není hlouběji v procesoru nebo někde dál v systémových sběrnicích. Na charakter vady by se možná dalo usuzovat podle rozložení chyb mezi adresy / DIMMy / kanály řadiče paměti. Pokud je to dokolečka pořád stejná adresa, je to asi jasné. Pokud správně koukám, není z toho logu vidět, které konkrétní bity byly špatně... Kdyby to byl problém v napájení pamětí (teplo nebo suché elyty), asi by těch chyb bylo mnohem víc a systém by to už neustál.
Chodi to nekolikrat denne, ruzne CPU, ruzny BANK, ale zda se, ze stejny kanal radice (MEMORY CONTROLLER MS_CHANNEL1_ERR).Vidíš tam to "ruzny BANK"?
Tiskni
Sdílej: