Byl aktualizován seznam 500 nejvýkonnějších superpočítačů na světě TOP500. Nejvýkonnějším superpočítačem zůstává El Capitan od HPE (Cray) s výkonem 1,742 exaFLOPS. Druhý Frontier má výkon 1,353 exaFLOPS. Třetí Aurora má výkon 1,012 exaFLOPS. Nejvýkonnější český počítač C24 klesl na 165 místo. Karolina, GPU partition klesla na 195. místo a Karolina, CPU partition na 421. místo. Další přehledy a statistiky na stránkách projektu.
Oficiálně byl vydán Android 16. Detaily na blogu a stránkách věnovaných vývojářům.
Byla vydána nová verze 14.3 svobodného unixového operačního systému FreeBSD. Podrobný přehled novinek v poznámkách k vydání.
CSIRT.CZ upozorňuje, že na základě rozhodnutí federálního soudu ve Spojených státech budou veškeré konverzace uživatelů s ChatGPT uchovávány. Včetně těch smazaných.
Ač semestr ve škole právě končí, bastlíři ze studentského klubu Silicon Hill neodpočívají a opět se jako každý měsíc hlásí s pravidelným bastlířským setkáním Virtuální Bastlírna, kde si můžete s ostatními techniky popovídat jako u piva o novinkách, o elektronice, softwaru, vědě, technice obecně, ale také o bizarních tématech, která se za poslední měsíc na internetu vyskytla.
Z novinek za zmínku stojí Maker Faire, kde Pájeníčko předvedlo … více »Na WWDC25 byl představen balíček Containerization a nástroj container pro spouštění linuxových kontejnerů na macOS. Jedná se o open source software pod licencí Apache 2.0 napsaný v programovacím jazyce Swift.
Do 16. června do 19:00 běží na Steamu přehlídka nadcházejících her Festival Steam Next | červen 2025 doplněná demoverzemi, přenosy a dalšími aktivitami. Demoverze lze hrát zdarma.
Apple na své vývojářské konferenci WWDC25 (Worldwide Developers Conference, keynote) představil řadu novinek: designový materiál Liquid Glass, iOS 26, iPadOS 26, macOS Tahoe 26, watchOS 26, visionOS 26, tvOS 26, nové funkce Apple Intelligence, …
Organizátoři konference LinuxDays 2025, jež proběhne o víkendu 4. a 5. října 2025 v Praze na FIT ČVUT, spustili přihlašování přednášek (do 31. srpna) a sběr námětů na zlepšení.
Po roce byla vydána nová stabilní verze 25.6.0 svobodného multiplatformního multimediálního přehrávače SMPlayer (Wikipedie).
Při zkoumání délek souborů jsem demonstroval některé modelové problémy, které při použití těchto nástrojů automatizované kanceláře vznikají. Také jsem upozornil na určité celkové zrádné problémy spojené s návrhem Unixu a informačních technologií vůbec, aby před nimi čtenář uživatel nebo návrhář byl varován.
Zdroj: Library of Congress (public domain).
Plakát na Čapkovu vědeckofantastickou hru R.U.R. v New Yorku v roce 1939. Na tuto hru dnes narazíme. Čapkova hra R.U.R. je zdrojem slova robot v různých světových jazycích.
Řekl bych, že nejprominentnější částí obsahu projektu Gutenberg jsou licenční záhlaví a zápatí, která dokážou být obzvláště otravná, chcete-li se jich zbavit. Na Internetu jsou různé diskuse a výtvory, jak tyto pasáže odstranit. Dojem, který jsem dostal, sumarizuje tato otázka na Stack Overflow: „Zkoušel jsem různé metody, jak odstranit licence z textů Projektu Gutenberg (…), ale nepřijde mi, že bych byl schopný přijít na spolehlivý, automatický postup, který nevyžaduje lidskou intervenci.“ Stack Overflow je webová stránka, kde si programátoři navzájem pomáhají řešit různé problémy.
Díval jsem se na předložené návrhy ostatních přispěvatelů, žádný se mi ale nezdál dostatečně důvěryhodný a elegantní, abych ho vyzkoušel.
Níže v článku použijeme statistickou metodu na filtraci archaismů a přímé řeči. Nepředpokládám ale, že by tyto právnické texty obsahovaly znatelné množství archaismů ani přímé řeči. Navíc jsou si podobné, takže pokud budou nějaké zbytkové množství těchto prvků obsahovat, budou mít tendenci je obsahovat všechny soubory.
Nakonec nás zajímají delší literární díla, vůči jejichž rozsahu bude velikost takové licence relativně malá. Ze zkušeností přispěvatelů na Stack Overflow se zdá, že problém je náročný, proto záhlaví a zápatí filtrovat nebudeme – nepřijde mi to adekvátní vynaložené námaze a potenciálnímu přínosu.
Taková filtrace je ale nutná, pokud člověk dělá jazykový korpus pro účely lingvistiky. Korpus je co největší soubor textů zpravidla v jednom jazyce, a to pokud možno reprezentativní. Statistický výzkum nebo strojové učení na korpusu, který by obsahoval takové právnické texty neodstraněné, by snadno došel k hrubě chybným závěrům. Například ve duchu, že každé literární dílo v anglickém jazyce, bez výjimky, obsahuje značný počet výskytů slov jako GUTENBERG, (TM), legální, povinnost, smlouva, záruka atd., což je samozřejmě absurdní závěr o běžném jazyce.
Britský národní korpus obsahuje 100 miliónů slov v britské angličtině ze široké palety zdrojů z konce 20. století. Jeho úmyslem je nabídnout reprezentativní vzorek mluvené a psané angličtiny z této doby. SYN2009PUB Českého národního korpusu dosahuje 700 miliónů slov publicistických textů.
Jedním z kritérii pro čtivost článku, jež použijeme, bude přítomnost přímé řeči. Ta se často vyskytuje v románech, povídkách a naopak se nevyskytuje vůbec nebo jen velmi málo v patentech, slovnících, encyklopediích, telefonních seznamech, příručkách, přednáškách či vědeckých dílech.
Jako jednoduchý indikátor přímé řeči jsem použil uvozovky, za kterými se vyskytuje anglické slovo já, ty, on, ona, protože. Toto odpovídá anglickému charakteru stavby věty. Pro češtinu by možná byla vhodná změna. Použijeme ošetřený výpis souborů jménem clean2.txt
, který jsme si vytvořili v pátém dílu seriálu. Výsledný seznam s počty výskytů náznaku přímé řeči pošleme do souboru prima_rec.txt
.
#!/bin/bash { for jmeno_souboru in $(cut -d ' ' -f 11- clean2.txt) do LC_ALL=C grep -c '"\(I\|You\|He\|She\|Because\)\>' "$jmeno_souboru" \ | tr '\n' ' ' && echo "$jmeno_souboru" done } \ | tee prima_rec.txt
Tento filtr bude mít jeden žádoucí vedlejší efekt: protože slova přímé řeči byla definována anglická, automaticky zamítne texty francouzské, německé atd., které se v projektu Gutenberg také vyskytují, ovšem ne v takové míře jako texty anglické. Drtivá většina textů v projektu je anglických. Pokud to čtenáře zajímá, projekt Gutenberg má seznamy knih německých, francouzských, ale třeba i českých, kde jsou ovšem díla pouhých osmi autorů, mezi nimi R.U.R. od Karla Čapka.
Příkaz poběží dlouho, protože musí progrepovat všech 20 GB textových dat. I kdyby byl disk schopen servírovat data plnou čtecí rychlostí 60 MB/s (rychlost mého
disku), jen načtení dat z disku by trvalo 20000/60/60 = 5,5 minuty. Naštěstí jsme alespoň urychlili grep pomocí LC_ALL=C
.
Obrázek: Eric Gaba via Wikipedia (CC-BY-SA 3.0).
Úzkým hrdlem u sekvenčního čtení z pevného disku jsou sériové hlavy, kde bity musí chodit jeden za druhým. Při rychlosti disku 60 MB/s a 6 površích musí každá hlava zvládat 10 MB/s neboli 80 Mb/s. Frekvence, které hlava musí přenášet, se tak budou řádově pohybovat kolem 100 MHz, tedy frekvence FM rádia. Toto úzké hrdlo u SSD, které mají řádově desetinásobnou rychlost trvalého čtení, odpadá.
Příště uvidíme, co grep
vygeneroval, a získáme hned několik literárních děl hledaného čtivého typu.
Nástroje: Tisk bez diskuse
Tiskni
Sdílej:
Při rychlosti disku 60 MB/s a 6 površích musí každá hlava zvládat 10 MB/s neboli 80 Mb/s.Opravdu disk umí držet na stopě všechny hlavy současně? Jsou na společném spindlu, ta mechanika by musela mít úžasnou reprodukovatelnost. Vždycky jsem si myslel (možná deformován historickým CHS systémem), že data jsou na disku lineárně.
Takže na jedné straně … a na straně druhé …
Ve skutečnosti je úplně jedno, co je na jedné nebo druhé straně. I kdyby pod tou sérií byl podepsaný někdo, kdo dokázal tolik, co Linus Torvalds, Donald Knuth a Jim Starkey dohromady, bylo by mi to úplně jedno, protože ta série je dobrá leda k demonstraci toho, o čem je řeč v semináři ke hře Švestka: paradoxní kombinace neschopnosti udržet myšlenku a neschopnosti opustit myšlenku.
Já zvedám pracku pro více clocka a méně Kubečka
Na rozdíl od toho, kdo se za své názory stydí natolik, že se pod ně neodváží ani podepsat, si myslím, že existuje určitá úroveň, pod kterou by se klesnout nemělo. Takže na plnou… ústa: než vydávat tohle, raději nevydávat nic. A pokud by snad existence ABCLinuxu měla záviset na článcích jako tyhle, pak by to asi opravdu bylo lepší odpískat.
clanek si nasel spokojene ctenare, argo nemuze byt uplne spatny
To je hodně odvážná implikace - a zcela neoprávněná. Tato série článků není zdaleka jediným protipříkladem.
jinou smysluplnou definici dobrého článku, než že si najde své spokojené čtenáře, neznámPodle teto definice nejlepsi clanky vychazeji v Blesku.
leda by ses prohlasil za nadcloveka a zacal vnucovat svuj vkus jinym lidemna to jsou tu jini odbornici, ... kteri dokazou tak komplikovanou vec, jako je kvalita clanku, zredukovat na jednorozmernou dvouhodnotovou velicinu (ma ctenare/nema ctenare)
argo nemuze byt uplne spatnyJako pes z cetnickych humoresek, Argo, uplne spatny nebyl. Termit, ktery jsi chtel pouzit, je tedy patrne "ergo".
zdarma
Pane kolego, že vy používáte blokování reklamy?
A tenhle článek je spálený a přesolený?
Ano (v rámci té analogie). Nemluvě o tom, že to vlastně z větší části ani nejsou řízky, protože k údajnému tématu série se autor pořád ještě nedostal. :-)
Pokud by někdo zdarma rozdával řízky…
…tak to pořád ostatní nezbavuje práva hodnotit jejich kvalitu.
Loni jsem třeba na jedné konferenci dostal kabel s klasickým USB konektorem na jedné straně a mini- a mikro- na druhé. Když jsem pak zjistil, že se dá použít jen pro nabíjení, protože nemá propojené datové piny, musím si tuto informaci podle vaší logiky nechat pro sebe (a nechat ostatní, ať na to přijdou sami)?