Byla vydána nová verze 4.8.0 programu na úpravu digitálních fotografií darktable (Wikipedie).
Nová čísla časopisů od nakladatelství Raspberry Pi: MagPi 142 (pdf) a HackSpace 79 (pdf).
Qtractor (Wikipedie) dospěl do verze 1.0.0. Jedná se o Audio/MIDI vícestopý sekvencer.
Byl vydán svobodný kancelářský balík OnlyOffice Docs 8.1. Vedle četných oprav přináší několik funkcí včetně podpory editace textu v PDF a vytváření formulářů v PDF.
Daniel Stenberg, autor nástroje curl, z databáze SteamDB zjistil, že aktuálně 22 734 her na Steamu používá curl.
Společnost Anthropic vydala Claude 3.5 Sonnet, tj. novou verzi své umělé inteligence Claude (Wikipedie). Videoukázky na YouTube. S Claude 3, stejně jak s GPT-3.5, Llama 3 a Mixtral, si lze pokecat bez přihlašování na DuckDuckGo AI Chat.
Byla vydána nová stabilní verze 6.8 webového prohlížeče Vivaldi (Wikipedie). Postavena je na Chromiu 126. Přehled novinek i s náhledy v příspěvku na blogu a na YouTube. Vypíchnuta jsou vylepšení v integrovaném poštovním klientu.
Příspěvek Aukce domén – měsíc po spuštění na blogu CZ.NIC shrnuje první měsíc provozu Aukce domén .CZ. Aukcemi prošlo celkem 18 174 domén, z toho na 742 z nich byl učiněn alespoň 1 příhoz. Nejdražší aukcí byla na doménu virtualnisidlo.cz s cenou 95 001 Kč, která však nebyla včas uhrazena. Nejdražší aukcí, která byla vydražena i zaplacena je praguecityline.cz s cenovkou 55 600 Kč.
Před 40 lety, 19. června 1984, Bob Scheifler představil první verzi okenního systému X (X Window System). Vycházela z okenního systému W (W Window System).
Desktopové prostředí MATE bylo vydáno ve verzi 1.28. V gitových repozitářích je sice už od února, ale oznámení vydání se na webu objevilo s několikaměsíčním zpožděním (únorové datum zveřejnění je nepravdivé). Jde o první velké vydání od roku 2021. Uživatelsky nejvýznamnější pokrok je v podpoře Waylandu.
Při zkoumání délek souborů jsem demonstroval některé modelové problémy, které při použití těchto nástrojů automatizované kanceláře vznikají. Také jsem upozornil na určité celkové zrádné problémy spojené s návrhem Unixu a informačních technologií vůbec, aby před nimi čtenář uživatel nebo návrhář byl varován.
Zdroj: Library of Congress (public domain).
Plakát na Čapkovu vědeckofantastickou hru R.U.R. v New Yorku v roce 1939. Na tuto hru dnes narazíme. Čapkova hra R.U.R. je zdrojem slova robot v různých světových jazycích.
Řekl bych, že nejprominentnější částí obsahu projektu Gutenberg jsou licenční záhlaví a zápatí, která dokážou být obzvláště otravná, chcete-li se jich zbavit. Na Internetu jsou různé diskuse a výtvory, jak tyto pasáže odstranit. Dojem, který jsem dostal, sumarizuje tato otázka na Stack Overflow: „Zkoušel jsem různé metody, jak odstranit licence z textů Projektu Gutenberg (…), ale nepřijde mi, že bych byl schopný přijít na spolehlivý, automatický postup, který nevyžaduje lidskou intervenci.“ Stack Overflow je webová stránka, kde si programátoři navzájem pomáhají řešit různé problémy.
Díval jsem se na předložené návrhy ostatních přispěvatelů, žádný se mi ale nezdál dostatečně důvěryhodný a elegantní, abych ho vyzkoušel.
Níže v článku použijeme statistickou metodu na filtraci archaismů a přímé řeči. Nepředpokládám ale, že by tyto právnické texty obsahovaly znatelné množství archaismů ani přímé řeči. Navíc jsou si podobné, takže pokud budou nějaké zbytkové množství těchto prvků obsahovat, budou mít tendenci je obsahovat všechny soubory.
Nakonec nás zajímají delší literární díla, vůči jejichž rozsahu bude velikost takové licence relativně malá. Ze zkušeností přispěvatelů na Stack Overflow se zdá, že problém je náročný, proto záhlaví a zápatí filtrovat nebudeme – nepřijde mi to adekvátní vynaložené námaze a potenciálnímu přínosu.
Taková filtrace je ale nutná, pokud člověk dělá jazykový korpus pro účely lingvistiky. Korpus je co největší soubor textů zpravidla v jednom jazyce, a to pokud možno reprezentativní. Statistický výzkum nebo strojové učení na korpusu, který by obsahoval takové právnické texty neodstraněné, by snadno došel k hrubě chybným závěrům. Například ve duchu, že každé literární dílo v anglickém jazyce, bez výjimky, obsahuje značný počet výskytů slov jako GUTENBERG, (TM), legální, povinnost, smlouva, záruka atd., což je samozřejmě absurdní závěr o běžném jazyce.
Britský národní korpus obsahuje 100 miliónů slov v britské angličtině ze široké palety zdrojů z konce 20. století. Jeho úmyslem je nabídnout reprezentativní vzorek mluvené a psané angličtiny z této doby. SYN2009PUB Českého národního korpusu dosahuje 700 miliónů slov publicistických textů.
Jedním z kritérii pro čtivost článku, jež použijeme, bude přítomnost přímé řeči. Ta se často vyskytuje v románech, povídkách a naopak se nevyskytuje vůbec nebo jen velmi málo v patentech, slovnících, encyklopediích, telefonních seznamech, příručkách, přednáškách či vědeckých dílech.
Jako jednoduchý indikátor přímé řeči jsem použil uvozovky, za kterými se vyskytuje anglické slovo já, ty, on, ona, protože. Toto odpovídá anglickému charakteru stavby věty. Pro češtinu by možná byla vhodná změna. Použijeme ošetřený výpis souborů jménem clean2.txt
, který jsme si vytvořili v pátém dílu seriálu. Výsledný seznam s počty výskytů náznaku přímé řeči pošleme do souboru prima_rec.txt
.
#!/bin/bash { for jmeno_souboru in $(cut -d ' ' -f 11- clean2.txt) do LC_ALL=C grep -c '"\(I\|You\|He\|She\|Because\)\>' "$jmeno_souboru" \ | tr '\n' ' ' && echo "$jmeno_souboru" done } \ | tee prima_rec.txt
Tento filtr bude mít jeden žádoucí vedlejší efekt: protože slova přímé řeči byla definována anglická, automaticky zamítne texty francouzské, německé atd., které se v projektu Gutenberg také vyskytují, ovšem ne v takové míře jako texty anglické. Drtivá většina textů v projektu je anglických. Pokud to čtenáře zajímá, projekt Gutenberg má seznamy knih německých, francouzských, ale třeba i českých, kde jsou ovšem díla pouhých osmi autorů, mezi nimi R.U.R. od Karla Čapka.
Příkaz poběží dlouho, protože musí progrepovat všech 20 GB textových dat. I kdyby byl disk schopen servírovat data plnou čtecí rychlostí 60 MB/s (rychlost mého
disku), jen načtení dat z disku by trvalo 20000/60/60 = 5,5 minuty. Naštěstí jsme alespoň urychlili grep pomocí LC_ALL=C
.
Obrázek: Eric Gaba via Wikipedia (CC-BY-SA 3.0).
Úzkým hrdlem u sekvenčního čtení z pevného disku jsou sériové hlavy, kde bity musí chodit jeden za druhým. Při rychlosti disku 60 MB/s a 6 površích musí každá hlava zvládat 10 MB/s neboli 80 Mb/s. Frekvence, které hlava musí přenášet, se tak budou řádově pohybovat kolem 100 MHz, tedy frekvence FM rádia. Toto úzké hrdlo u SSD, které mají řádově desetinásobnou rychlost trvalého čtení, odpadá.
Příště uvidíme, co grep
vygeneroval, a získáme hned několik literárních děl hledaného čtivého typu.
Nástroje: Tisk bez diskuse
Tiskni Sdílej:
Při rychlosti disku 60 MB/s a 6 površích musí každá hlava zvládat 10 MB/s neboli 80 Mb/s.Opravdu disk umí držet na stopě všechny hlavy současně? Jsou na společném spindlu, ta mechanika by musela mít úžasnou reprodukovatelnost. Vždycky jsem si myslel (možná deformován historickým CHS systémem), že data jsou na disku lineárně.
Takže na jedné straně … a na straně druhé …
Ve skutečnosti je úplně jedno, co je na jedné nebo druhé straně. I kdyby pod tou sérií byl podepsaný někdo, kdo dokázal tolik, co Linus Torvalds, Donald Knuth a Jim Starkey dohromady, bylo by mi to úplně jedno, protože ta série je dobrá leda k demonstraci toho, o čem je řeč v semináři ke hře Švestka: paradoxní kombinace neschopnosti udržet myšlenku a neschopnosti opustit myšlenku.
Já zvedám pracku pro více clocka a méně Kubečka
Na rozdíl od toho, kdo se za své názory stydí natolik, že se pod ně neodváží ani podepsat, si myslím, že existuje určitá úroveň, pod kterou by se klesnout nemělo. Takže na plnou… ústa: než vydávat tohle, raději nevydávat nic. A pokud by snad existence ABCLinuxu měla záviset na článcích jako tyhle, pak by to asi opravdu bylo lepší odpískat.
clanek si nasel spokojene ctenare, argo nemuze byt uplne spatny
To je hodně odvážná implikace - a zcela neoprávněná. Tato série článků není zdaleka jediným protipříkladem.
jinou smysluplnou definici dobrého článku, než že si najde své spokojené čtenáře, neznámPodle teto definice nejlepsi clanky vychazeji v Blesku.
leda by ses prohlasil za nadcloveka a zacal vnucovat svuj vkus jinym lidemna to jsou tu jini odbornici, ... kteri dokazou tak komplikovanou vec, jako je kvalita clanku, zredukovat na jednorozmernou dvouhodnotovou velicinu (ma ctenare/nema ctenare)
argo nemuze byt uplne spatnyJako pes z cetnickych humoresek, Argo, uplne spatny nebyl. Termit, ktery jsi chtel pouzit, je tedy patrne "ergo".
zdarma
Pane kolego, že vy používáte blokování reklamy?
A tenhle článek je spálený a přesolený?
Ano (v rámci té analogie). Nemluvě o tom, že to vlastně z větší části ani nejsou řízky, protože k údajnému tématu série se autor pořád ještě nedostal. :-)
Pokud by někdo zdarma rozdával řízky…
…tak to pořád ostatní nezbavuje práva hodnotit jejich kvalitu.
Loni jsem třeba na jedné konferenci dostal kabel s klasickým USB konektorem na jedné straně a mini- a mikro- na druhé. Když jsem pak zjistil, že se dá použít jen pro nabíjení, protože nemá propojené datové piny, musím si tuto informaci podle vaší logiky nechat pro sebe (a nechat ostatní, ať na to přijdou sami)?