Nadace FreeBSD Foundation před týdnem oznámila projekt Laptop Integration Testing. Vyzvala dobrovolníky, aby pomocí nástroje otestovali podporu FreeBSD na svých zařízeních a výsledky odeslali vývojářům. Vznikla stránka Nejlepší notebooky pro FreeBSD.
Na začátku srpna vstoupí v účinnost nová evropská pravidla transparentnosti pro umělou inteligenci (AI). Zavádějí povinnost jakýkoli AI obsah označit, informovat o takzvaných deepfakes a upozornit uživatele, že komunikuje s umělou inteligencí. Cílem opatření je omezit šíření manipulativního či klamavého obsahu, zvýšit důvěru v digitální prostředí a chránit uživatele.
Connor Byrne z USA používal pro přihlašování na svůj iPhone 13 s iOS 18 heslo obsahující háček. Po aktualizaci na iOS 26.4 se už ale do telefonu nepřihlásí. Při přihlašování nelze tento háček zadat. Apple jej prostě odstranil [The Register].
Linus Torvalds vydal jádro Linux 7.0. Podrobný výčet změn je ke zhlédnutí na stránce Kernel Newbies, stručné výběry v LWN (část první, druhá).
Na čem aktuálně pracují vývojáři GNOME? Pravidelný přehled novinek v Týden v GNOME. Vypíchnout lze novou verzi 2026.1 přehrávače hudby Amberol (Flathub).
Byla vydána verze 12.0 s kódovým jménem Ecne linuxové distribuce Trisquel GNU/Linux. Založena je na Ubuntu 24.04 LTS a podporována bude do roku 2029. Trisquel patří mezi svobodné distribuce doporučované Nadací pro svobodný software (FSF).
Open-source citační manažer Zotero (Wikipedie, GitHub) byl vydán v nové major verzi 9. Přehled novinek v příspěvku na blogu.
Libre Graphics Meeting 2026, tj. čtyřdenní konference a setkání vývojářů a uživatelů svobodných a otevřených grafických softwarů, proběhne od 22. do 25. dubna v Norimberku. Dění lze sledovat na Mastodonu.
Vývojář Alexandre Gomes Gaigalas na GitHubu zveřejnil c89cc.sh, parser a kompilátor jazyka C89 napsaný v pouhém jediném skriptu o přibližně 8000 řádcích čistého bashe (bez dalších externích závislostí), který generuje ELF64 binárky pro x86-64. Jedná se o velmi jednoduchý kompilátor, který nepodporuje direktivy #include a dokonce ani funkci printf (lze použít puts), všechny dostupné deklarace lze nalézt v proměnné _BUILTIN_LIBC na konci skriptu. Skript je volně dostupný pod ISC licencí.
Francouzská vláda oznámila, že v rámci strategie 'digitální suverenity' zahájí 'přechod od systému Windows k počítačům s operačním systémem Linux' (sa sortie de Windows au profit de postes sous système d'exploitation Linux). DINUM (meziresortní ředitelství pro digitální technologie) požádalo ministerstva, aby do podzimu 2026 vypracovaly konkrétní plány nasazení Linuxu. Francie již dříve migrovala části státní správy na otevřená řešení.
V diskuzích k mému dvoudílnému článku o automatizovaném retušování digitalizovaných textů ([1], [2]) se Filip Jirsák opakovaně pozastavoval nad tím, proč rovnou nepoužít OCR, které retušování udělá také, a může ho udělat lépe. Již v diskuzi jsem zmínil, že mé zkušenosti s OCR nejsou velké, a nyní dodávám, že to málo, které mám, je poněkud rozpačité. Přesto mi to nakonec nedalo, abych jednu dvoustranu ze zpracovávaného dokumentu nezkusil procesem rozpoznávání textu prohnat.
Jestli jsem Filipovým poznámkám správně porozuměl, předmětem sporu jsou odstraňování šumu a šedého pozadí; ostatní úpravy jako odstranění černých okrajů, ořez a korekce sklonu se zdají být pochopitelné. Co se šumu týče, asi mělo být v článku více zdůrazněno, že filtr unpaperu je ve výchozím nastavení opravdu citlivě nastaven, tj. že odstraňuje prakticky pouze jednopixelové body, pokud zároveň v nejbližším okolí je jen velmi málo jiných bodů, takže i při relativně nízkém rozlišení skenovaných dokumentů a malém písmu skutečně nehrozí, že by filtr postihl interpunkci či podtržení. Samozřejmě je žádoucí si výsledek filtru na vzorku zkontrolovat a v případě potřeby upravit jeho intenzitu či jej úplně vypnout.
Odstraňování šedého pozadí možná byl v článku věnován mnohem větší prostor, než si ve skutečnosti zaslouží – pokládám za náhodu, že jsem se potkal se zvýšeným počtem knih, které rámečky se šedým pozadím používaly, jinde se s nimi asi v takové míře nesetkáte. Každopádně zde nelze mluvit o nějakém obecném retušování, naopak šlo o nastudování vzorku tohoto šumu a sepsání algoritmu přesně cíleného na jeho odstranění. Jak by v tom nějaké OCR mohlo být lepší?
A nyní k provedenému testu: nechal jsem zpracovat originální sken a retušovaný sken jedné dvoustrany obsahující mimo jiné i texty v šedých rámečcích. Jak dokazují přiložené snímky obrazovky, na textu v šedých rámečcích v originálním obrázku si OCR vylámalo zuby, za text označilo jenom části rámečků a písmena v nich nepoznalo správně. V retušovaných obrázcích mělo OCR u textů v rámečcích stejnou úspěšnost jako u jiného textu mimo rámeček. Co se běžného šumu týče, zde dávám Filipovi za pravdu, s tím OCR problém nemá.
Použité OCR bylo OmniPage 4.0 SE, což asi nebude žádný zázrak pod Sluncem, přesto to potvrzuje mou hypotézu, že retušování může OCR pomoci. I když třeba jiné OCR s vhodným profilem může uspět lépe (dokud neuvidím, neuvěřím), asi budu raději dál retušovat než-li ztrácet čas hledáním vhodného profilu.
Tiskni
Sdílej:
netpbm, na zakódování pak DJVU. S programem unpaper jsem před několika lety příliš spokojen nebyl. Škoda, že teď nemám zrovna nic, na čem bych jej opět vyzkoušel, možná se už zlepšil. Samotné rozpoznávání pak zavrhuju proto, že jej nemám čím provádět, navíc by posloužilo jen jako text pro prohledávání DJVU. A to zvládne i on-line služba any2djvu.
Originály jsou černobílé v rozlišení 200 dpiAlespoň to, ať můžeme porovnat alespoň něco.
Retušovať, potom rozpoznávať a rozpoznané uložiť ako vrstvu pod text - DJVU alebo PDF. My tak robíme, sprístupnili sme zopár oscannovaných kníh a časopisov, tak som sa s tým kedysi dosť hral. Článok je na veľmi dobrej úrovni, škoda že nebol píaný pred pár rokmi, takto som si to všetko musel poobjavovať sám 
Rozpoznávanie a použiitie textu bez grafickej verzie je nanič - chybovosť je ta jeden-dva znaky na riadok (dosť, ak ide o publikáciu, kde na znakoch záleží), ale hlavne hrozí veľké riziko zblbnutia rovníc, tabuliek, schém apod. Pre beletriu to nie je až také podstatné, pre vedeckú literatúru veľmi.