Win8DE je desktopové prostředí pro Wayland, inspirované nechvalně proslulým uživatelským rozhraním Metro z Windows 8. Nabízí dlaždicové rozhraní s velkými tlačítky a jednoduchou navigací, optimalizované pro dotyková zařízení. Cílem projektu je přetvořit design operačního systému Windows 8 do funkčního a minimalistického rozhraní vhodného pro každodenní použití na Linuxu.
Laboratoře CZ.NIC vydaly Datovku 4.28.0 a Mobilní Datovku 2.6.0. Hlavní novinkou je ukládání rozpracovaných datových zpráv do konceptů. Datovka je svobodné multiplatformní aplikace pro přístup k datovým schránkám a k trvalému uchovávání datových zpráv v lokální databázi.
Unix Pipe Game je vzdělávací karetní hra zaměřená na děti a rodiče, která děti učí používat unixové příkazy prostřednictvím interaktivních úkolů. Klíčovým prvkem hry je využití symbolu | pro pipeline neboli 'rouru', který umožňuje propojit výstupy a vstupy jednotlivých unixových příkazů, v tomto případě vytištěných na kartičkách. Předpokládá se, že rodič má alespoň nějaké povědomí o unixových příkazech a jejich provazování pomocí |.
… více »PCIem je linuxový framework, který vytváří virtuální zařízení PCIe pomocí technik, které umožňují hostitelskému operačnímu systému rozpoznat tyto syntetické 'neexistující' karty jako fyzické zařízení přítomné na sběrnici. Framework PCIem je primárně zamýšlen jako pomůcka pro vývoj a testování ovladačů bez nutnosti použít skutečný hardware. Dle tvrzení projektu si fungování PCIem můžeme představit jako MITM (Man-in-the-Middle), který se nachází mezi ovladači a kernelem.
Byla nalezena vážná bezpečnostní chyba v telnetd z balíčku GNU InetUtils. Týká se verzí GNU InetUtils od 1.9.3 z 12. května 2015 až po aktuální 2.7 z 14. prosince 2025. Útočník může obejít autentizaci a získat root přístup, jelikož telnetd nekontroluje předaný obsah proměnné prostředí USER a pokud obsahuje "-f root"…
Stanislav Aleksandrov předložil patch rozšiřující KWin (KDE Plasma) na 3D virtuální desktopové prostředí (videoukázka v mp4).
Digg (Wikipedie), "místo, kde můžete sdílet a objevovat to nejlepší z internetu – a nejen to", je zpět. Ve veřejné betě.
Po .deb balíčcích Mozilla nově poskytuje také .rpm balíčky Firefoxu Nightly.
Vývojové prostředí IntelliJ IDEA slaví 25. narozeniny (YouTube).
Vedení společnosti NVIDIA údajně povolilo použití milionů knih ze známého 'warez' archivu Anna's Archive k výcviku umělé inteligence, ačkoliv vědělo, že archiv tyto knihy nezískal legální cestou. Žaloba, ve které se objevují i citace interních dokumentů společnosti NVIDIA, tvrdí, že NVIDIA přímo kontaktovala Anna's Archive a požadovala vysokorychlostní přístup k datům knihovny.
V diskuzích k mému dvoudílnému článku o automatizovaném retušování digitalizovaných textů ([1], [2]) se Filip Jirsák opakovaně pozastavoval nad tím, proč rovnou nepoužít OCR, které retušování udělá také, a může ho udělat lépe. Již v diskuzi jsem zmínil, že mé zkušenosti s OCR nejsou velké, a nyní dodávám, že to málo, které mám, je poněkud rozpačité. Přesto mi to nakonec nedalo, abych jednu dvoustranu ze zpracovávaného dokumentu nezkusil procesem rozpoznávání textu prohnat.
Jestli jsem Filipovým poznámkám správně porozuměl, předmětem sporu jsou odstraňování šumu a šedého pozadí; ostatní úpravy jako odstranění černých okrajů, ořez a korekce sklonu se zdají být pochopitelné. Co se šumu týče, asi mělo být v článku více zdůrazněno, že filtr unpaperu je ve výchozím nastavení opravdu citlivě nastaven, tj. že odstraňuje prakticky pouze jednopixelové body, pokud zároveň v nejbližším okolí je jen velmi málo jiných bodů, takže i při relativně nízkém rozlišení skenovaných dokumentů a malém písmu skutečně nehrozí, že by filtr postihl interpunkci či podtržení. Samozřejmě je žádoucí si výsledek filtru na vzorku zkontrolovat a v případě potřeby upravit jeho intenzitu či jej úplně vypnout.
Odstraňování šedého pozadí možná byl v článku věnován mnohem větší prostor, než si ve skutečnosti zaslouží – pokládám za náhodu, že jsem se potkal se zvýšeným počtem knih, které rámečky se šedým pozadím používaly, jinde se s nimi asi v takové míře nesetkáte. Každopádně zde nelze mluvit o nějakém obecném retušování, naopak šlo o nastudování vzorku tohoto šumu a sepsání algoritmu přesně cíleného na jeho odstranění. Jak by v tom nějaké OCR mohlo být lepší?
A nyní k provedenému testu: nechal jsem zpracovat originální sken a retušovaný sken jedné dvoustrany obsahující mimo jiné i texty v šedých rámečcích. Jak dokazují přiložené snímky obrazovky, na textu v šedých rámečcích v originálním obrázku si OCR vylámalo zuby, za text označilo jenom části rámečků a písmena v nich nepoznalo správně. V retušovaných obrázcích mělo OCR u textů v rámečcích stejnou úspěšnost jako u jiného textu mimo rámeček. Co se běžného šumu týče, zde dávám Filipovi za pravdu, s tím OCR problém nemá.
Použité OCR bylo OmniPage 4.0 SE, což asi nebude žádný zázrak pod Sluncem, přesto to potvrzuje mou hypotézu, že retušování může OCR pomoci. I když třeba jiné OCR s vhodným profilem může uspět lépe (dokud neuvidím, neuvěřím), asi budu raději dál retušovat než-li ztrácet čas hledáním vhodného profilu.
Tiskni
Sdílej:
netpbm, na zakódování pak DJVU. S programem unpaper jsem před několika lety příliš spokojen nebyl. Škoda, že teď nemám zrovna nic, na čem bych jej opět vyzkoušel, možná se už zlepšil. Samotné rozpoznávání pak zavrhuju proto, že jej nemám čím provádět, navíc by posloužilo jen jako text pro prohledávání DJVU. A to zvládne i on-line služba any2djvu.
Originály jsou černobílé v rozlišení 200 dpiAlespoň to, ať můžeme porovnat alespoň něco.
Retušovať, potom rozpoznávať a rozpoznané uložiť ako vrstvu pod text - DJVU alebo PDF. My tak robíme, sprístupnili sme zopár oscannovaných kníh a časopisov, tak som sa s tým kedysi dosť hral. Článok je na veľmi dobrej úrovni, škoda že nebol píaný pred pár rokmi, takto som si to všetko musel poobjavovať sám 
Rozpoznávanie a použiitie textu bez grafickej verzie je nanič - chybovosť je ta jeden-dva znaky na riadok (dosť, ak ide o publikáciu, kde na znakoch záleží), ale hlavne hrozí veľké riziko zblbnutia rovníc, tabuliek, schém apod. Pre beletriu to nie je až také podstatné, pre vedeckú literatúru veľmi.