abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    včera 18:00 | Nová verze

    Byla vydána (Mastodon, 𝕏) nová stabilní verze 2.0 otevřeného operačního systému pro chytré hodinky AsteroidOS (Wikipedie). Přehled novinek v oznámení o vydání a na YouTube.

    Ladislav Hagara | Komentářů: 1
    včera 16:00 | Zajímavý software

    WoWee je open-source klient pro MMORPG hru World of Warcraft, kompatibilní se základní verzí a rozšířeními The Burning Crusade a Wrath of the Lich King. Klient je napsaný v C++ a využívá vlastní OpenGL renderer, pro provoz vyžaduje modely, grafiku, hudbu, zvuky a další assety z originální kopie hry od Blizzardu. Zdrojový kód je na GitHubu, dostupný pod licencí MIT.

    NUKE GAZA! 🎆 | Komentářů: 4
    včera 13:33 | IT novinky

    Byl představen ICT Supply Chain Security Toolbox, společný nezávazný rámec EU pro posuzování a snižování kybernetických bezpečnostních rizik v ICT dodavatelských řetězcích. Toolbox identifikuje možné rizikové scénáře ovlivňující ICT dodavatelské řetězce a na jejich podkladě nabízí koordinovaná doporučení k hodnocení a mitigaci rizik. Doporučení se dotýkají mj. podpory multi-vendor strategií a snižování závislostí na vysoce

    … více »
    Ladislav Hagara | Komentářů: 4
    včera 12:22 | Humor

    Nizozemský ministr obrany Gijs Tuinman prohlásil, že je možné stíhací letouny F-35 'jailbreaknout stejně jako iPhony', tedy upravit jejich software bez souhlasu USA nebo spolupráce s výrobcem Lockheed Martin. Tento výrok zazněl v rozhovoru na BNR Nieuwsradio, kde Tuinman naznačil, že evropské země by mohly potřebovat větší nezávislost na americké technologii. Jak by bylo jailbreak možné technicky provést pan ministr nijak nespecifikoval, nicméně je známé, že izraelské letectvo ve svých modifikovaných stíhačkách F-35 používá vlastní software.

    NUKE GAZA! 🎆 | Komentářů: 19
    včera 06:00 | Zajímavý článek

    Nové číslo časopisu Raspberry Pi zdarma ke čtení: Raspberry Pi Official Magazine 162 (pdf).

    Ladislav Hagara | Komentářů: 0
    včera 05:55 | IT novinky

    Sdružení CZ.NIC, správce české národní domény, zveřejnilo Domain Report za rok 2025 s klíčovými daty o vývoji domény .CZ. Na konci roku 2025 bylo v registru české národní domény celkem 1 515 860 s koncovkou .CZ. Průměrně bylo měsíčně zaregistrováno 16 222 domén, přičemž nejvíce registrací proběhlo v lednu (18 722) a nejméně pak v červnu (14 559). Podíl domén zabezpečených pomocí technologie DNSSEC se po několika letech stagnace výrazně

    … více »
    Ladislav Hagara | Komentářů: 9
    18.2. 18:33 | IT novinky

    Google představil telefon Pixel 10a. S funkci Satelitní SOS, která vás spojí se záchrannými složkami i v místech bez signálu Wi-Fi nebo mobilní sítě. Cena telefonu je od 13 290 Kč.

    Ladislav Hagara | Komentářů: 7
    18.2. 16:22 | Komunita

    Byl publikován přehled dění a novinek z vývoje Asahi Linuxu, tj. Linuxu pro Apple Silicon. Fedora 43 Asahi Remix s KDE Plasma už funguje na M3. Zatím ale bez GPU akcelerace. Vývojáře lze podpořit na Open Collective a GitHub Sponsors.

    Ladislav Hagara | Komentářů: 0
    18.2. 14:00 | IT novinky

    Red Hat představil nový nástroj Digital Sovereignty Readiness Assessment (GitHub), který organizacím umožní vyhodnotit jejich aktuální schopnosti v oblasti digitální suverenity a nastavit strategii pro nezávislé a bezpečné řízení IT prostředí.

    Ladislav Hagara | Komentářů: 0
    18.2. 12:22 | Zajímavý software

    BarraCUDA je neoficiální open-source CUDA kompilátor, ale pro grafické karty AMD (CUDA je proprietární technologie společnosti NVIDIA). BarraCUDA dokáže přeložit zdrojové *.cu soubory (prakticky C/C++) přímo do strojového kódu mikroarchitektury GFX11 a vytvořit tak ELF *.hsaco binární soubory, spustitelné na grafické kartě AMD. Zdrojový kód (převážně C99) je k dispozici na GitHubu, pod licencí Apache-2.0.

    NUKE GAZA! 🎆 | Komentářů: 1
    Které desktopové prostředí na Linuxu používáte?
     (18%)
     (6%)
     (0%)
     (11%)
     (27%)
     (3%)
     (5%)
     (2%)
     (12%)
     (27%)
    Celkem 908 hlasů
     Komentářů: 25, poslední 3.2. 19:50
    Rozcestník

    Polemika: text retušovat nebo raději rozpoznávat?

    23.7.2009 16:44 | Přečteno: 1415× | Mezi židlí a klávesnicí

    V diskuzích k mému dvoudílnému článku o automatizovaném retušování digitalizovaných textů ([1], [2]) se Filip Jirsák opakovaně pozastavoval nad tím, proč rovnou nepoužít OCR, které retušování udělá také, a může ho udělat lépe. Již v diskuzi jsem zmínil, že mé zkušenosti s OCR nejsou velké, a nyní dodávám, že to málo, které mám, je poněkud rozpačité. Přesto mi to nakonec nedalo, abych jednu dvoustranu ze zpracovávaného dokumentu nezkusil procesem rozpoznávání textu prohnat.

    Jestli jsem Filipovým poznámkám správně porozuměl, předmětem sporu jsou odstraňování šumu a šedého pozadí; ostatní úpravy jako odstranění černých okrajů, ořez a korekce sklonu se zdají být pochopitelné. Co se šumu týče, asi mělo být v článku více zdůrazněno, že filtr unpaperu je ve výchozím nastavení opravdu citlivě nastaven, tj. že odstraňuje prakticky pouze jednopixelové body, pokud zároveň v nejbližším okolí je jen velmi málo jiných bodů, takže i při relativně nízkém rozlišení skenovaných dokumentů a malém písmu skutečně nehrozí, že by filtr postihl interpunkci či podtržení. Samozřejmě je žádoucí si výsledek filtru na vzorku zkontrolovat a v případě potřeby upravit jeho intenzitu či jej úplně vypnout.
    Odstraňování šedého pozadí možná byl v článku věnován mnohem větší prostor, než si ve skutečnosti zaslouží – pokládám za náhodu, že jsem se potkal se zvýšeným počtem knih, které rámečky se šedým pozadím používaly, jinde se s nimi asi v takové míře nesetkáte. Každopádně zde nelze mluvit o nějakém obecném retušování, naopak šlo o nastudování vzorku tohoto šumu a sepsání algoritmu přesně cíleného na jeho odstranění. Jak by v tom nějaké OCR mohlo být lepší?

    A nyní k provedenému testu: nechal jsem zpracovat originální sken a retušovaný sken jedné dvoustrany obsahující mimo jiné i texty v šedých rámečcích. Jak dokazují přiložené snímky obrazovky, na textu v šedých rámečcích v originálním obrázku si OCR vylámalo zuby, za text označilo jenom části rámečků a písmena v nich nepoznalo správně. V retušovaných obrázcích mělo OCR u textů v rámečcích stejnou úspěšnost jako u jiného textu mimo rámeček. Co se běžného šumu týče, zde dávám Filipovi za pravdu, s tím OCR problém nemá.
    Použité OCR bylo OmniPage 4.0 SE, což asi nebude žádný zázrak pod Sluncem, přesto to potvrzuje mou hypotézu, že retušování může OCR pomoci. I když třeba jiné OCR s vhodným profilem může uspět lépe (dokud neuvidím, neuvěřím), asi budu raději dál retušovat než-li ztrácet čas hledáním vhodného profilu.

           

    Hodnocení: 100 %

            špatnédobré        

    Anketa

    Retušovat nebo rozpoznávat?
     (10 %)
     (62 %)
     (28 %)
    Celkem 29 hlasů

    Obrázky

    Polemika: text retušovat nebo raději rozpoznávat?, obrázek 1 Polemika: text retušovat nebo raději rozpoznávat?, obrázek 2 Polemika: text retušovat nebo raději rozpoznávat?, obrázek 3

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    Komentáře

    Vložit další komentář

    23.7.2009 18:37 #Tom | skóre: 32 | blog: Inspirace, aneb co jsem kde vyhrabal
    Rozbalit Rozbalit vše Re: Polemika: text retušovat nebo raději rozpoznávat?
    Neretušovat a nerozpoznávat. Při použití velkoformátového snímacího zařízení se snáze dosáhne toho, že jsou stránky nasnímány rovně, nebo téměř rovně. Potom stačí stránky vhodně ořezat a rozřezat na levou a pravou. Stačí mi k tomu jen netpbm, na zakódování pak DJVU. S programem unpaper jsem před několika lety příliš spokojen nebyl. Škoda, že teď nemám zrovna nic, na čem bych jej opět vyzkoušel, možná se už zlepšil. Samotné rozpoznávání pak zavrhuju proto, že jej nemám čím provádět, navíc by posloužilo jen jako text pro prohledávání DJVU. A to zvládne i on-line služba any2djvu.
    23.7.2009 18:51 Filip Jirsák | skóre: 67 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: Polemika: text retušovat nebo raději rozpoznávat?
    Bylo by možné zveřejnit nějaké originály (300 nebo 600 DPI v odstínech šedi v TIFFu nebo PNG), a případně pak i upravené verze? Projel bych to OCRkem (OmniPage 16, což je poněkud méně preehistorický kousek), abychom mohli něco porovnat.
    Jiří Poláček avatar 24.7.2009 12:47 Jiří Poláček | skóre: 47 | blog: naopak | Sivice
    Rozbalit Rozbalit vše Re: Polemika: text retušovat nebo raději rozpoznávat?
    Originály jsou černobílé v rozlišení 200 dpi, a prakticky celý popisovaný postup je založen na tomto faktu. Pokud by primárním úmyslem naší digitalizace bylo OCR, pak bychom možná preferovali jiné parametry skenování.

    Nějaké skenované obrázky samozřejmě mohu poskytnout k vyzkoušení (jen co se po dovolené dostanu k datům).
    Sudoku omrzelo? Zkuste bobblemaze! | Statistiky jsou jak bikiny. Napoví hodně, všechno ale neukážou.
    24.7.2009 15:14 Filip Jirsák | skóre: 67 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: Polemika: text retušovat nebo raději rozpoznávat?
    Originály jsou černobílé v rozlišení 200 dpi
    Alespoň to, ať můžeme porovnat alespoň něco.
    23.7.2009 19:35 Radovan Garabík
    Rozbalit Rozbalit vše Re: Polemika: text retušovat nebo raději rozpoznávat?

    Retušovať, potom rozpoznávať a rozpoznané uložiť ako vrstvu pod text - DJVU alebo PDF. My tak robíme, sprístupnili sme zopár oscannovaných kníh  a časopisov, tak som sa s tým kedysi dosť hral. Článok je na veľmi dobrej úrovni, škoda že nebol píaný pred pár rokmi, takto som si to všetko musel poobjavovať sám :-)

     

    Rozpoznávanie a použiitie textu bez grafickej verzie je nanič - chybovosť je ta jeden-dva znaky na riadok (dosť, ak ide o publikáciu, kde na znakoch záleží), ale hlavne hrozí veľké riziko zblbnutia rovníc, tabuliek, schém apod. Pre beletriu to nie je až také podstatné, pre vedeckú literatúru veľmi.

    24.7.2009 00:25 Semo | skóre: 45 | blog: Semo
    Rozbalit Rozbalit vše Re: Polemika: text retušovat nebo raději rozpoznávat?
    Suhlasim s tou beletriou. Cital som skenovaneho Maga od E.R.Feista a spojenie "princovi Borricovi" bolo obcas zapisane ako "princovi Romeovi". Po par stranach mi doslo, ze sa v deji neobjavila ziadna nova postava, iba OCR spolu so slovnikom uradovalo. Ale citat sa to dalo.
    If you hold a Unix shell up to your ear, you can you hear the C.
    Jiří Poláček avatar 24.7.2009 12:52 Jiří Poláček | skóre: 47 | blog: naopak | Sivice
    Rozbalit Rozbalit vše Re: Polemika: text retušovat nebo raději rozpoznávat?
    Škoda, že jste to před těmi pár lety nesepsal sám, mohl jste mi ušetřit práci :-)
    Sudoku omrzelo? Zkuste bobblemaze! | Statistiky jsou jak bikiny. Napoví hodně, všechno ale neukážou.

    Založit nové vláknoNahoru

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.