Polemika: text retušovat nebo raději rozpoznávat?

Přihlášení | Registrace

napište » Zprávičky

Meta Connect 2024

včera 22:11 | IT novinky

Společnost Meta Platforms na své dvoudenní konferenci Meta Connect 2024 představuje novinky: brýle Orion (původně Project Nazare) pro rozšířenou realitu (AR, Augmented Reality), nový VR headset Meta Quest 3S, vylepšené chytré brýle Ray-Ban Meta nebo Llama 3.2, tj. nejnovější verzi svého velkého jazykového modelu.

Ladislav Hagara | Komentářů: 0

XBill oslavil 30 let

včera 17:11 | Humor

Počítačová hra XBill (Wikipedie) oslavila v létě 30 let. V devadesátkách Linuxáci poctivě bránili Billovi v instalaci Windows. Bohužel hry XSteve a XSatya nevznikly. A nemáme ani hru XTim. Proto není Linux na desktopu tak rozšířený ☺. Mimochodem, po 25 letech byl aktualizován XBill pro PalmOS.

Ladislav Hagara | Komentářů: 3

Počítačová hra Elite byla vydána před 40 lety

včera 11:55 | Zajímavý software

Počítačová hra Elite (Wikipedie), 3D vesmírní simulátor, byla vydána před 40 lety, 20. září 1984. Při té příležitosti byly zveřejněny další zdrojové kódy Elite pro platformy Apple, Atari, C64, NES a SNES a nedokončené Elite II pro BBC Micro.

Ladislav Hagara | Komentářů: 5

Zdrojové kódy přehrávače Winamp zveřejněny

24.9. 22:00 | Zajímavý software

V květnu bylo oznámeno, že dnes budou zveřejněny zdrojové kódy přehrávače Winamp. Stalo se tak (𝕏). Zdrojové kódy jsou k dispozici na GitHubu. Nejedná se ale o svobodný a otevřený software (licence).

Ladislav Hagara | Komentářů: 6

Fiala navrhne odvolání Bartoše z postu vicepremiéra a ministra

24.9. 13:55 | IT novinky

Fiala navrhne odvolání Bartoše z postu vicepremiéra pro digitalizaci a ministra pro místní rozvoj ke 30. září. Důvodem je nezvládnutí digitalizace stavebního řízení, podle premiéra ji Bartoš není schopen dotáhnout do konce. „Po projednání analýzy digitálního stavebního řízení na vládě minulou středu a po dnešním ranním rozhovoru s panem vicepremiérem Ivanem Bartošem jsem bohužel nabyl jistoty, že není schopen tuto digitalizaci

… více »

Ladislav Hagara | Komentářů: 44

Telegram po tlaku úřadů začne vládám poskytovat více informací o uživatelích

24.9. 12:33 | IT novinky

Komunikační platforma Telegram začne po tlaku úřadů poskytovat vládám více informací o svých uživatelích. V pondělí to oznámil její zakladatel a generální ředitel Pavel Durov. Ten už několik týdnů ve Francii čelí obvinění, že nedělá dost pro to, aby platformu nevyužívaly i kriminální živly. To chce Durov nyní také změnit, informují tiskové agentury.

Ladislav Hagara | Komentářů: 31

MagPi 145 a Hello World 25

24.9. 12:22 | Zajímavý článek

Nová čísla časopisů od nakladatelství Raspberry Pi: MagPi 145 (pdf) a Hello World 25 (pdf).

Ladislav Hagara | Komentářů: 0

Hy 1.0.0

24.9. 04:44 | Nová verze

Programovací jazyk Hy (Wikipedie) dospěl do verze 1.0.0. Po téměř dvanácti letech vývoje. Jedná se o dialekt programovacího jazyka LISP navržený pro interakci s programovacím jazykem Python.

Ladislav Hagara | Komentářů: 0

Webový prohlížeč Zen

23.9. 20:00 | Zajímavý software

Zen je webový prohlížeč vycházející z Firefoxu. Vývoj probíhá na GitHubu. Instalovat lze také z Flathubu.

Ladislav Hagara | Komentářů: 1

Apache NetBeans 23

23.9. 15:11 | Nová verze

Organizace Apache Software Foundation (ASF) vydala verzi 23 integrovaného vývojového prostředí a vývojové platformy napsané v Javě NetBeans (Wikipedie). Přehled novinek na GitHubu. Instalovat lze také ze Snapcraftu a Flathubu.

Ladislav Hagara | Komentářů: 0

Centrum | Napsat | Starší

Rozcestník

AbcLinuxu

HDmag.cz

Jiří Poláček - naopak

Aktuální zápisy

? Archív

? Oblíbené stránky

? Navigace

Nej blogů na AbcLinuxu

Nejčtenější za poslední měsíc

Nejkomentovanější za poslední měsíc

AbcLinuxu:/ Blogy / naopak / Mezi židlí a klávesnicí / Polemika: text retušovat nebo raději rozpoznávat?

Štítky: filtr, OCR, problém

Polemika: text retušovat nebo raději rozpoznávat?

23.7.2009 16:44 | Přečteno: 1320× | Mezi židlí a klávesnicí

V diskuzích k mému dvoudílnému článku o automatizovaném retušování digitalizovaných textů ([1], [2]) se Filip Jirsák opakovaně pozastavoval nad tím, proč rovnou nepoužít OCR, které retušování udělá také, a může ho udělat lépe. Již v diskuzi jsem zmínil, že mé zkušenosti s OCR nejsou velké, a nyní dodávám, že to málo, které mám, je poněkud rozpačité. Přesto mi to nakonec nedalo, abych jednu dvoustranu ze zpracovávaného dokumentu nezkusil procesem rozpoznávání textu prohnat.

Jestli jsem Filipovým poznámkám správně porozuměl, předmětem sporu jsou odstraňování šumu a šedého pozadí; ostatní úpravy jako odstranění černých okrajů, ořez a korekce sklonu se zdají být pochopitelné. Co se šumu týče, asi mělo být v článku více zdůrazněno, že filtr unpaperu je ve výchozím nastavení opravdu citlivě nastaven, tj. že odstraňuje prakticky pouze jednopixelové body, pokud zároveň v nejbližším okolí je jen velmi málo jiných bodů, takže i při relativně nízkém rozlišení skenovaných dokumentů a malém písmu skutečně nehrozí, že by filtr postihl interpunkci či podtržení. Samozřejmě je žádoucí si výsledek filtru na vzorku zkontrolovat a v případě potřeby upravit jeho intenzitu či jej úplně vypnout.
Odstraňování šedého pozadí možná byl v článku věnován mnohem větší prostor, než si ve skutečnosti zaslouží – pokládám za náhodu, že jsem se potkal se zvýšeným počtem knih, které rámečky se šedým pozadím používaly, jinde se s nimi asi v takové míře nesetkáte. Každopádně zde nelze mluvit o nějakém obecném retušování, naopak šlo o nastudování vzorku tohoto šumu a sepsání algoritmu přesně cíleného na jeho odstranění. Jak by v tom nějaké OCR mohlo být lepší?

A nyní k provedenému testu: nechal jsem zpracovat originální sken a retušovaný sken jedné dvoustrany obsahující mimo jiné i texty v šedých rámečcích. Jak dokazují přiložené snímky obrazovky, na textu v šedých rámečcích v originálním obrázku si OCR vylámalo zuby, za text označilo jenom části rámečků a písmena v nich nepoznalo správně. V retušovaných obrázcích mělo OCR u textů v rámečcích stejnou úspěšnost jako u jiného textu mimo rámeček. Co se běžného šumu týče, zde dávám Filipovi za pravdu, s tím OCR problém nemá.
Použité OCR bylo OmniPage 4.0 SE, což asi nebude žádný zázrak pod Sluncem, přesto to potvrzuje mou hypotézu, že retušování může OCR pomoci. I když třeba jiné OCR s vhodným profilem může uspět lépe (dokud neuvidím, neuvěřím), asi budu raději dál retušovat než-li ztrácet čas hledáním vhodného profilu.

Hodnocení: 100 %

špatné • dobré

Anketa

Obrázky

Tiskni Sdílej:

Komentáře

Nástroje: Začni sledovat (1) ? , Tisk

Vložit další komentář

23.7.2009 18:37 #Tom | skóre: 32 | blog: Inspirace, aneb co jsem kde vyhrabal
Rozbalit Rozbalit vše Re: Polemika: text retušovat nebo raději rozpoznávat?

Odpovědět | Sbalit | Link | Blokovat | Admin

Neretušovat a nerozpoznávat. Při použití velkoformátového snímacího zařízení se snáze dosáhne toho, že jsou stránky nasnímány rovně, nebo téměř rovně. Potom stačí stránky vhodně ořezat a rozřezat na levou a pravou. Stačí mi k tomu jen netpbm, na zakódování pak DJVU. S programem unpaper jsem před několika lety příliš spokojen nebyl. Škoda, že teď nemám zrovna nic, na čem bych jej opět vyzkoušel, možná se už zlepšil. Samotné rozpoznávání pak zavrhuju proto, že jej nemám čím provádět, navíc by posloužilo jen jako text pro prohledávání DJVU. A to zvládne i on-line služba any2djvu.

23.7.2009 18:51 Filip Jirsák | skóre: 68 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: Polemika: text retušovat nebo raději rozpoznávat?

Odpovědět | Sbalit | Link | Blokovat | Admin

Bylo by možné zveřejnit nějaké originály (300 nebo 600 DPI v odstínech šedi v TIFFu nebo PNG), a případně pak i upravené verze? Projel bych to OCRkem (OmniPage 16, což je poněkud méně preehistorický kousek), abychom mohli něco porovnat.

24.7.2009 12:47 Jiří Poláček | skóre: 47 | blog: naopak | Sivice
Rozbalit Rozbalit vše Re: Polemika: text retušovat nebo raději rozpoznávat?

Originály jsou černobílé v rozlišení 200 dpi, a prakticky celý popisovaný postup je založen na tomto faktu. Pokud by primárním úmyslem naší digitalizace bylo OCR, pak bychom možná preferovali jiné parametry skenování.

Nějaké skenované obrázky samozřejmě mohu poskytnout k vyzkoušení (jen co se po dovolené dostanu k datům).

Sudoku omrzelo? Zkuste bobblemaze! | Statistiky jsou jak bikiny. Napoví hodně, všechno ale neukážou.

24.7.2009 15:14 Filip Jirsák | skóre: 68 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: Polemika: text retušovat nebo raději rozpoznávat?

Originály jsou černobílé v rozlišení 200 dpi

Alespoň to, ať můžeme porovnat alespoň něco.

23.7.2009 19:35 Radovan Garabík
Rozbalit Rozbalit vše Re: Polemika: text retušovat nebo raději rozpoznávat?

Odpovědět | Sbalit | Link | Blokovat | Admin

Retušovať, potom rozpoznávať a rozpoznané uložiť ako vrstvu pod text - DJVU alebo PDF. My tak robíme, sprístupnili sme zopár oscannovaných kníh a časopisov, tak som sa s tým kedysi dosť hral. Článok je na veľmi dobrej úrovni, škoda že nebol píaný pred pár rokmi, takto som si to všetko musel poobjavovať sám :-)

Rozpoznávanie a použiitie textu bez grafickej verzie je nanič - chybovosť je ta jeden-dva znaky na riadok (dosť, ak ide o publikáciu, kde na znakoch záleží), ale hlavne hrozí veľké riziko zblbnutia rovníc, tabuliek, schém apod. Pre beletriu to nie je až také podstatné, pre vedeckú literatúru veľmi.

24.7.2009 00:25 Semo | skóre: 45 | blog: Semo
Rozbalit Rozbalit vše Re: Polemika: text retušovat nebo raději rozpoznávat?

Suhlasim s tou beletriou. Cital som skenovaneho Maga od E.R.Feista a spojenie "princovi Borricovi" bolo obcas zapisane ako "princovi Romeovi". Po par stranach mi doslo, ze sa v deji neobjavila ziadna nova postava, iba OCR spolu so slovnikom uradovalo. Ale citat sa to dalo.

If you hold a Unix shell up to your ear, you can you hear the C.

24.7.2009 12:52 Jiří Poláček | skóre: 47 | blog: naopak | Sivice
Rozbalit Rozbalit vše Re: Polemika: text retušovat nebo raději rozpoznávat?

Škoda, že jste to před těmi pár lety nesepsal sám, mohl jste mi ušetřit práci :-)

Sudoku omrzelo? Zkuste bobblemaze! | Statistiky jsou jak bikiny. Napoví hodně, všechno ale neukážou.

Založit nové vlákno • Nahoru

Píšeme jinde

ISSN 1214-1267 www.czech-server.cz

Redakce | Inzerce | Podmínky použití | Osobní údaje