abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×

včera 23:00 | Nová verze

Po 9 týdnech vývoje od vydání Linuxu 5.17 oznámil Linus Torvalds vydání Linuxu 5.18 (LKML). Přehled nových vlastností a vylepšení na stránce Linux Kernel Newbies.

Ladislav Hagara | Komentářů: 0
včera 14:44 | Komunita

V Ubuntu 22.10 s kódovým jménem Kinetic Kudu bude zvukový server PulseAudio nahrazen multimediálním serverem PipeWire.

Ladislav Hagara | Komentářů: 10
21.5. 22:44 | Zajímavý článek

Tavis Ormandy popisuje, jak zprovoznil 32 let starý unixový port tabulkového procesoru Lotus 1-2-3 na moderním Linuxu. Doprovodné zdrojové kódy jsou na GitHubu.

Fluttershy, yay! | Komentářů: 9
21.5. 17:00 | Nová verze

Po pěti měsících vývoje od vydání verze 250 byla vydána nová verze 251 správce systému a služeb systemd (GitHub, NEWS).

Ladislav Hagara | Komentářů: 2
21.5. 15:44 | IT novinky

HP ve spolupráci se System76 představil 14" notebook HP Dev One s procesorem AMD Ryzen 7 PRO a předinstalovaným Pop!_OS Linuxem.

Ladislav Hagara | Komentářů: 19
21.5. 15:00 | Nová verze

Byla vydána verze 1.61.0 programovacího jazyka Rust (Wikipedie). Podrobnosti v poznámkách k vydání. Vyzkoušet Rust lze například na stránce Rust by Example.

Ladislav Hagara | Komentářů: 0
19.5. 00:33 | Zajímavý článek

Správce nástroje curl Daniel Stenberg na GitHubu průběžně vytváří svou novou knihu Uncurled, v níž shrnuje své dlouhodobé zkušenosti s údržbou open-source projektu: od odpozorovaných pouček po vtipné a ne až tak vtipné příklady e-mailů od uživatelů.

Fluttershy, yay! | Komentářů: 32
19.5. 00:22 | Nová verze

Byla vydána nová major verze 25.0 programovacího jazyka Erlang (Wikipedie) a související platformy OTP (Open Telecom Platform, Wikipedie). Přehled novinek v příspěvku na blogu.

Ladislav Hagara | Komentářů: 4
19.5. 00:11 | Nová verze

Deno (Wikipedie), běhové prostředí (runtime) pro JavaScript a TypeScript, bylo vydáno ve verzi 1.22. Přehled novinek v poznámkách k vydání.

Ladislav Hagara | Komentářů: 0
18.5. 18:22 | Nová verze

Společnost Red Hat oznámila vydání Red Hat Enterprise Linuxu (RHEL) 9.0. Vedle nových vlastností a oprav chyb přináší také aktualizaci ovladačů a předběžné ukázky budoucích technologií. Podrobnosti v poznámkách k vydání.

Ladislav Hagara | Komentářů: 8
Na sociálních sítích nebo jiných webových diskuzích vystupuji pod
 (61%)
 (15%)
 (23%)
Celkem 322 hlasů
 Komentářů: 28, poslední dnes 14:46
Rozcestník


Dotaz: OCR

27.8.2013 08:18 juvi
OCR
Přečteno: 512×
Zdravím, hledám nějaký OCR a našel jsem info, že slušně fungovalo Cuneiform. Ovšem (prohlídkou webu) mám dojem, že dnes to asi na Linuxu moc nejede a openocr.org se mi jeví poněkud mrtvé. Provozujete to někdo? Gocr moc slavné není, potřeboval bych něco lepšího.

Odpovědi

27.8.2013 08:39 onno
Rozbalit Rozbalit vše Re: OCR
yagf jako frontent pro cuneiform a tesseract.
Luboš Doležel (Doli) avatar 27.8.2013 10:12 Luboš Doležel (Doli) | skóre: 98 | blog: Doliho blog | Kladensko
Rozbalit Rozbalit vše Re: OCR
Z mých zkušeností byl Tesseract vždy nejlepší. Cuneiform měl horší výsledky a ještě mi zahazoval diakritiku (ale to možná byla moje chyba).
27.8.2013 10:25 onno
Rozbalit Rozbalit vše Re: OCR
ano, také mám lepší zkušenosti s Tesseractem.
27.8.2013 15:48 Radun
Rozbalit Rozbalit vše Re: OCR
Problémy s češtinou u cuneiform v mém případě zmizely po vlastním překladu s patchem (na stránkách projektu), který řeší Bug #978183 .
27.8.2013 09:30 Radovan Garabík
Rozbalit Rozbalit vše Re: OCR
ABBYY finereader. Je to síce platené, ale pomerne dobrý SW.
27.8.2013 09:49 mica
Rozbalit Rozbalit vše Re: OCR
Dovolte, abych vás opravil. Nikoli poměrně dobrý, nýbrž velmi dobrý. K některým skenerům dodávána ořezaná verze (podpora omezeného počtu jazyků, nicméně mně angličtina a čeština bohatě stačí), i ta nicméně funguje velmi dobře.
27.8.2013 09:57 Radovan Garabík
Rozbalit Rozbalit vše Re: OCR
Pomerne, lebo v linuxovej verzii sa nedajú natrénovať vlastné znaky, CLI má pomerne obskurnú voľbu parametrov (záleží na poradí!), nedokumentovane vyrába veľké dočasné súbory v /tmp (takže s tmpfs dopadne niekedy na hubu), nedá sa použiť vlastný spellchecker, nepodporuje SMP atď....

Windows verzia je na tom lepšie.
29.8.2013 07:21 mica
Rozbalit Rozbalit vše Re: OCR
Linuxovou verzi neznám, používám verzi pro Windows pod Wine a u ní jsem jmenované problémy nezaznamenal, takže moje hodnocení platí pro ni.
27.8.2013 09:52 Sandik | skóre: 13 | blog: obcasny_obcasny_blog | Praha (když zrovna nejsem někde jinde ;o)
Rozbalit Rozbalit vše Re: OCR
Používám asi deset let starý ABBYY FineReader pro Win přes Wine. Funguje to spolehlivě, jenom mu musím předhodit jako "vstup" nikoli přímo scanner (na tom padá) ale předtím pomocí Gimpu a XSane vytvořené jpg soubory.
...
Luboš Doležel (Doli) avatar 27.8.2013 09:58 Luboš Doležel (Doli) | skóre: 98 | blog: Doliho blog | Kladensko
Rozbalit Rozbalit vše Re: OCR
Já jsem zkoušel verzi pro Linux a ten program se mi pořádně ani nespustil a padal.
27.8.2013 10:36 Sandik | skóre: 13 | blog: obcasny_obcasny_blog | Praha (když zrovna nejsem někde jinde ;o)
Rozbalit Rozbalit vše Re: OCR
Vůbec netuším, to to má i verzi pro Linux. Každopádně Windowsí verze, kterou jsem mimochodem kdysi kdesi získal zdarma, funguje spolehlivě. Poradí si s diakritikou, zvládá i formátované texty (sloupce, obrázky, nadpisy, tučné písmo a kurzivu), je sto schroustat i ne moc dobré fotky z digitálního foťáku. Prostě spokojenost.
...
27.8.2013 10:49 Sandik | skóre: 13 | blog: obcasny_obcasny_blog | Praha (když zrovna nejsem někde jinde ;o)
Rozbalit Rozbalit vše Re: OCR
mělo být "že to má", sorry za ten překlep
...
27.8.2013 14:03 Radun
Rozbalit Rozbalit vše Re: OCR
Celkem dlouho jsem zkoušel cuneiform i tesseract. Tesseract se mi zdál o něco lepší. U cuneiform jsem narazil na dvě chyby, které způsobily ukončení programu s chybou. Došlo k tomu vždy, pokud na stránce nebyl rozpoznán žádný text (např. prázdná stránka - prováděl jsem převod celé knihy automaticky) a pak tehdy, pokud bylo rozlišení větší než 3500px v libovolném směru.

Tesseract má zřejmě o něco lépe vyřešen jakýsi pre-processing, který pomocí nastavení prahových hodnot černé bílé převede obrázek na 1-bit ČB. Pokud jsem totiž podstrčil programu cuneiform obrázek takto upravený pomocí imagemagick, pak byl výsledek slušný (asi stejný jako u tesseract); jinak u obrázeku 8-bit šedé (neupravený, rovnou ze scanneru) dopadlo rozpoznání lépe vždy za použití tesseract.

(Oba programy podporují české znaky.)

Pro jednorázovou akci < 100 stránek je také možné stáhnout demo verzi placeného abbyyocr9. Tento program jsem vyzkoušel a musím potvrdit, že i velmi nekvalitní text ze 100 let starých knih dokázal rozpoznat velmi slušně a přitom si také poradil se stíny, kazy a různými jinými nectnostmi; v tomto případě byl výsledek obou open source programů špatný ( byl jen o něco lepší při pracné úpravě pomocí imagemagick). Jakékoliv upravování obrázku pomocí imagemagick jsem u abbyyocr shledal jako zbytečné nebo horší. Nejlepší výsledek byl vždy rovnou s obrázkem ze scanneru (barevný i čb); program si s tím sám poradil nejlépe. Škoda jen že cena programu je v linux verzi vysoká a lincence je časově nebo od počtu stránek (už nevím přesně) omezená.

Stejně dobré výsledky jako s abbyyocr se mi podařilo dosáhnout také s on-line OCR na www.onlineocr.net ; mám podezření, že jim tam běží stejný program. Pro převod pár stránek běžného textu je to asi nejlepší a nejrychlejší řešení.
28.8.2013 22:34 jik
Rozbalit Rozbalit vše Re: OCR
Díky, tesseract se mi na OpenSUSE 12.3 podařilo nainstalovat. Budu zkoušet.

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267   www.czech-server.cz
© 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.