Homebrew (Wikipedie), správce balíčků pro macOS a od verze 2.0.0 také pro Linux, byl vydán ve verzi 4.5.0. Na stránce Homebrew Formulae lze procházet seznamem balíčků. K dispozici jsou také různé statistiky.
Byl vydán Mozilla Firefox 138.0. Přehled novinek v poznámkách k vydání a poznámkách k vydání pro vývojáře. Řešeny jsou rovněž bezpečnostní chyby. Nový Firefox 138 je již k dispozici také na Flathubu a Snapcraftu.
Šestnáctý ročník ne-konference jOpenSpace se koná 3. – 5. října 2025 v Hotelu Antoň v Telči. Pro účast je potřeba vyplnit registrační formulář. Ne-konference neznamená, že se organizátorům nechce připravovat program, ale naopak dává prostor všem pozvaným, aby si program sami složili z toho nejzajímavějšího, čím se v poslední době zabývají nebo co je oslovilo. Obsah, který vytvářejí všichni účastníci, se skládá z desetiminutových
… více »Richard Stallman přednáší ve středu 7. května od 16:30 na Technické univerzitě v Liberci o vlivu technologií na svobodu. Přednáška je určená jak odborné tak laické veřejnosti.
Jean-Baptiste Mardelle se v příspěvku na blogu rozepsal o novinkám v nejnovější verzi 25.04.0 editoru videa Kdenlive (Wikipedie). Ke stažení také na Flathubu.
TmuxAI (GitHub) je AI asistent pro práci v terminálu. Vyžaduje účet na OpenRouter.
Byla vydána nová verze R14.1.4 desktopového prostředí Trinity Desktop Environment (TDE, fork KDE 3.5, Wikipedie). Přehled novinek i s náhledy v poznámkách k vydání. Podrobný přehled v Changelogu.
Bylo vydáno OpenBSD 7.7. Opět bez písničky.
V Tiraně proběhl letošní Linux App Summit (LAS) (Mastodon). Zatím nesestříhané videozáznamy přednášek jsou k dispozici na YouTube.
Při zkoumání délek souborů jsem demonstroval některé modelové problémy, které při použití těchto nástrojů automatizované kanceláře vznikají. Také jsem upozornil na určité celkové zrádné problémy spojené s návrhem Unixu a informačních technologií vůbec, aby před nimi čtenář uživatel nebo návrhář byl varován.
Zdroj: Library of Congress (public domain).
Plakát na Čapkovu vědeckofantastickou hru R.U.R. v New Yorku v roce 1939. Na tuto hru dnes narazíme. Čapkova hra R.U.R. je zdrojem slova robot v různých světových jazycích.
Řekl bych, že nejprominentnější částí obsahu projektu Gutenberg jsou licenční záhlaví a zápatí, která dokážou být obzvláště otravná, chcete-li se jich zbavit. Na Internetu jsou různé diskuse a výtvory, jak tyto pasáže odstranit. Dojem, který jsem dostal, sumarizuje tato otázka na Stack Overflow: „Zkoušel jsem různé metody, jak odstranit licence z textů Projektu Gutenberg (…), ale nepřijde mi, že bych byl schopný přijít na spolehlivý, automatický postup, který nevyžaduje lidskou intervenci.“ Stack Overflow je webová stránka, kde si programátoři navzájem pomáhají řešit různé problémy.
Díval jsem se na předložené návrhy ostatních přispěvatelů, žádný se mi ale nezdál dostatečně důvěryhodný a elegantní, abych ho vyzkoušel.
Níže v článku použijeme statistickou metodu na filtraci archaismů a přímé řeči. Nepředpokládám ale, že by tyto právnické texty obsahovaly znatelné množství archaismů ani přímé řeči. Navíc jsou si podobné, takže pokud budou nějaké zbytkové množství těchto prvků obsahovat, budou mít tendenci je obsahovat všechny soubory.
Nakonec nás zajímají delší literární díla, vůči jejichž rozsahu bude velikost takové licence relativně malá. Ze zkušeností přispěvatelů na Stack Overflow se zdá, že problém je náročný, proto záhlaví a zápatí filtrovat nebudeme – nepřijde mi to adekvátní vynaložené námaze a potenciálnímu přínosu.
Taková filtrace je ale nutná, pokud člověk dělá jazykový korpus pro účely lingvistiky. Korpus je co největší soubor textů zpravidla v jednom jazyce, a to pokud možno reprezentativní. Statistický výzkum nebo strojové učení na korpusu, který by obsahoval takové právnické texty neodstraněné, by snadno došel k hrubě chybným závěrům. Například ve duchu, že každé literární dílo v anglickém jazyce, bez výjimky, obsahuje značný počet výskytů slov jako GUTENBERG, (TM), legální, povinnost, smlouva, záruka atd., což je samozřejmě absurdní závěr o běžném jazyce.
Britský národní korpus obsahuje 100 miliónů slov v britské angličtině ze široké palety zdrojů z konce 20. století. Jeho úmyslem je nabídnout reprezentativní vzorek mluvené a psané angličtiny z této doby. SYN2009PUB Českého národního korpusu dosahuje 700 miliónů slov publicistických textů.
Jedním z kritérii pro čtivost článku, jež použijeme, bude přítomnost přímé řeči. Ta se často vyskytuje v románech, povídkách a naopak se nevyskytuje vůbec nebo jen velmi málo v patentech, slovnících, encyklopediích, telefonních seznamech, příručkách, přednáškách či vědeckých dílech.
Jako jednoduchý indikátor přímé řeči jsem použil uvozovky, za kterými se vyskytuje anglické slovo já, ty, on, ona, protože. Toto odpovídá anglickému charakteru stavby věty. Pro češtinu by možná byla vhodná změna. Použijeme ošetřený výpis souborů jménem clean2.txt
, který jsme si vytvořili v pátém dílu seriálu. Výsledný seznam s počty výskytů náznaku přímé řeči pošleme do souboru prima_rec.txt
.
#!/bin/bash { for jmeno_souboru in $(cut -d ' ' -f 11- clean2.txt) do LC_ALL=C grep -c '"\(I\|You\|He\|She\|Because\)\>' "$jmeno_souboru" \ | tr '\n' ' ' && echo "$jmeno_souboru" done } \ | tee prima_rec.txt
Tento filtr bude mít jeden žádoucí vedlejší efekt: protože slova přímé řeči byla definována anglická, automaticky zamítne texty francouzské, německé atd., které se v projektu Gutenberg také vyskytují, ovšem ne v takové míře jako texty anglické. Drtivá většina textů v projektu je anglických. Pokud to čtenáře zajímá, projekt Gutenberg má seznamy knih německých, francouzských, ale třeba i českých, kde jsou ovšem díla pouhých osmi autorů, mezi nimi R.U.R. od Karla Čapka.
Příkaz poběží dlouho, protože musí progrepovat všech 20 GB textových dat. I kdyby byl disk schopen servírovat data plnou čtecí rychlostí 60 MB/s (rychlost mého
disku), jen načtení dat z disku by trvalo 20000/60/60 = 5,5 minuty. Naštěstí jsme alespoň urychlili grep pomocí LC_ALL=C
.
Obrázek: Eric Gaba via Wikipedia (CC-BY-SA 3.0).
Úzkým hrdlem u sekvenčního čtení z pevného disku jsou sériové hlavy, kde bity musí chodit jeden za druhým. Při rychlosti disku 60 MB/s a 6 površích musí každá hlava zvládat 10 MB/s neboli 80 Mb/s. Frekvence, které hlava musí přenášet, se tak budou řádově pohybovat kolem 100 MHz, tedy frekvence FM rádia. Toto úzké hrdlo u SSD, které mají řádově desetinásobnou rychlost trvalého čtení, odpadá.
Příště uvidíme, co grep
vygeneroval, a získáme hned několik literárních děl hledaného čtivého typu.
Nástroje: Tisk bez diskuse
Tiskni
Sdílej:
Při rychlosti disku 60 MB/s a 6 površích musí každá hlava zvládat 10 MB/s neboli 80 Mb/s.Opravdu disk umí držet na stopě všechny hlavy současně? Jsou na společném spindlu, ta mechanika by musela mít úžasnou reprodukovatelnost. Vždycky jsem si myslel (možná deformován historickým CHS systémem), že data jsou na disku lineárně.
Takže na jedné straně … a na straně druhé …
Ve skutečnosti je úplně jedno, co je na jedné nebo druhé straně. I kdyby pod tou sérií byl podepsaný někdo, kdo dokázal tolik, co Linus Torvalds, Donald Knuth a Jim Starkey dohromady, bylo by mi to úplně jedno, protože ta série je dobrá leda k demonstraci toho, o čem je řeč v semináři ke hře Švestka: paradoxní kombinace neschopnosti udržet myšlenku a neschopnosti opustit myšlenku.
Já zvedám pracku pro více clocka a méně Kubečka
Na rozdíl od toho, kdo se za své názory stydí natolik, že se pod ně neodváží ani podepsat, si myslím, že existuje určitá úroveň, pod kterou by se klesnout nemělo. Takže na plnou… ústa: než vydávat tohle, raději nevydávat nic. A pokud by snad existence ABCLinuxu měla záviset na článcích jako tyhle, pak by to asi opravdu bylo lepší odpískat.
clanek si nasel spokojene ctenare, argo nemuze byt uplne spatny
To je hodně odvážná implikace - a zcela neoprávněná. Tato série článků není zdaleka jediným protipříkladem.
jinou smysluplnou definici dobrého článku, než že si najde své spokojené čtenáře, neznámPodle teto definice nejlepsi clanky vychazeji v Blesku.
leda by ses prohlasil za nadcloveka a zacal vnucovat svuj vkus jinym lidemna to jsou tu jini odbornici, ... kteri dokazou tak komplikovanou vec, jako je kvalita clanku, zredukovat na jednorozmernou dvouhodnotovou velicinu (ma ctenare/nema ctenare)
argo nemuze byt uplne spatnyJako pes z cetnickych humoresek, Argo, uplne spatny nebyl. Termit, ktery jsi chtel pouzit, je tedy patrne "ergo".
zdarma
Pane kolego, že vy používáte blokování reklamy?
A tenhle článek je spálený a přesolený?
Ano (v rámci té analogie). Nemluvě o tom, že to vlastně z větší části ani nejsou řízky, protože k údajnému tématu série se autor pořád ještě nedostal. :-)
Pokud by někdo zdarma rozdával řízky…
…tak to pořád ostatní nezbavuje práva hodnotit jejich kvalitu.
Loni jsem třeba na jedné konferenci dostal kabel s klasickým USB konektorem na jedné straně a mini- a mikro- na druhé. Když jsem pak zjistil, že se dá použít jen pro nabíjení, protože nemá propojené datové piny, musím si tuto informaci podle vaší logiky nechat pro sebe (a nechat ostatní, ať na to přijdou sami)?