Portál AbcLinuxu, 5. května 2025 23:01

Srovnání několika OCR programů

Pokud občas skenujete texty a nejste spokojeni s programem GOCR, mohl by vás zaujmout článek na groundstate.ca, srovnávající linuxové OCR programy. V článku se testují programy jako Clara, Ocre, Tesseract, Ocropus a další.

24.5.2007 18:16 | otula | Zajímavý článek


Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

Komentáře

Nástroje: Začni sledovat (2) ?Zašle upozornění na váš email při vložení nového komentáře. , Tisk

Vložit další komentář

otula avatar 25.5.2007 00:03 otula | skóre: 45 | blog: otakar | Adamov
Rozbalit Rozbalit vše Re: Srovnání několika OCR programů
Odpovědět | Sbalit | Link | Blokovat | Admin
Tak jsem si zkompiloval OCRopus a Tesseract, fungují, ale nemám páru, jak je naučit česky. A na stránkách jsem našel jen to, že to jde, ale ne jak. Poradíte někdo?
Kdo vám tvrdí, že jste paranoidní, ten v tom spiknutí s největší pravděpodobností jede taky.
25.5.2007 00:25 Käyttäjä 11133 | skóre: 58 | blog: Ajattelee menneisyyttä
Rozbalit Rozbalit vše Re: Srovnání několika OCR programů
Tesseract nijak :( zbytek neznám
otula avatar 25.5.2007 00:38 otula | skóre: 45 | blog: otakar | Adamov
Rozbalit Rozbalit vše Re: Srovnání několika OCR programů
Hm, ale OCRopus by se měl určitě dát naučit jiné řeči, než jen angličtinu. Nebýt této „drobnosti“, tak ten výsledek vypadá slušně.
Kdo vám tvrdí, že jste paranoidní, ten v tom spiknutí s největší pravděpodobností jede taky.
25.5.2007 07:15 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Srovnání několika OCR programů
Faktem je, že tyhle zmíněné programy fungují docela slušně, do chvíle než dojde na diakritiku. Bohužel paradoxně i opravdu kvalitní OCR aplikace i pro jiné platformy jdou podivnými cestami, protože např. Read Iris 10 dává mnohem lepší výsledky než verze 11 (Jinak Read I.R.I.S. 10 funguje bez problémů pod wine a dává opravdu dobré výsledky, asi nejlepší z toho co jsem testoval)
25.5.2007 10:17 Badolf
Rozbalit Rozbalit vše Re: Srovnání několika OCR programů
kdysi sem testoval finereader (tusim 8.0) pod wine a take to chodilo velmi uspokojive.
25.5.2007 10:39 petr_p | skóre: 59 | blog: pb
Rozbalit Rozbalit vše Re: Srovnání několika OCR programů
Existují dva extrémní přístupy: buďto zadrátovat znalost konkrétních písem, nebo plně inteligentí zpracování.

Oba přístupy se často kombinují, v komerčním světě však převládá ten první. Takže takové programy fungují jen na předem připraveném písmu (často implicitní fonty z Windows).

Metoda úplného učení se s oblibou používá u konvertorů bitmapových titulků k filmům do textu. Tam je písmo velmi jednoduché a pracuje se často s celými slovy (uživatel je dotazován, co je to za slovo, a po vyčerpání slovní zásoby herců pracuje prakticky automaticky), což je výhodné u nesklonných jazyků jako je angličtina.

Dalším problémem je předzpracování textu (osazování bounding boxů, hledání účaří), kdy je u diakritiky problém spojit znaménko s písmenem. Paradoxně program umožňující rozpoznávání volného textu (tj. ne jen textu v řádku), je na tom hůře, protože považuje znaménka za samostatná písmena (např. z háčku dělá „e“).

Před necelým rokem jsem se zabýval GOCR a konečně se byl začleněn základ pro učení se znaků. Tehdy se už uměl ptát, ale neměl naučené znaky opakovaně rozpoznat. Autoři slibovali, že se v tomto směru polepší.
31.7.2007 13:51 chmelej
Rozbalit Rozbalit vše Re: Srovnání několika OCR programů
vypada to ze od verze 2.00 je mozne tesseract ucit i dalsi jazyky, ale do cestiny se zrejme jeste nikdo nepustil. viz. http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract

Založit nové vláknoNahoru


ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.