abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×

dnes 01:55 | Komunita

The Open Source Software Security Mobilization Plan (pdf) je konsorciem The Linux Foundation zastřešen plán na zvýšení bezpečnosti open source softwaru.

Ladislav Hagara | Komentářů: 0
dnes 00:11 | Zajímavý článek

Minulý týden proběhla hackerská soutěž Pwn2Own Vancouver 2022. Máte-li na starost bezpečnost IT, výsledky vás nepotěší. Microsoft Teams, Oracle Virtualbox, Mozilla Firefox, Microsoft Windows 11, Ubuntu Desktop, Apple Safari, Tesla Model 3 Infotainment System. Vše potopeno. Demonstrované bezpečnostní chyby ve Firefoxu jsou již opraveny ve verzi 100.0.2.

Ladislav Hagara | Komentářů: 0
včera 13:22 | Nová verze

Lokální úložiště Stratis (Wikipedie), alternativa k úložištím s ZFS a Btrfs, bylo vydáno ve verzi 3.1.0. Přehled novinek v poznámkách k vydání.

Ladislav Hagara | Komentářů: 3
včera 13:11 | IT novinky

Sdružení CZ.NIC dnes vrátilo do zóny dříve vyřazená jména domén dezinformačních webů.

Ladislav Hagara | Komentářů: 25
včera 11:11 | IT novinky

Před půl rokem představený webový vyhledávač You.com (Wikipedie) se zaměřuje také na kodéry. Vyzkoušet lze YouCode.

Ladislav Hagara | Komentářů: 0
včera 08:00 | Zajímavý software

RustDesk je open source alternativa k TeamVieweru. Zdrojové kódy jsou k dispozici na GitHubu pod licencí GPL-3.0.

Ladislav Hagara | Komentářů: 1
včera 07:00 | Nová verze

Po 4 měsících vývoje od vydání verze 5.9 byla vydána nová verze 6.0 svobodného open source redakčního systému WordPress. Kódové jméno Arturo bylo vybráno na počest jazzového hudebníka Artura O'Farrilla.

Ladislav Hagara | Komentářů: 0
24.5. 19:00 | Nová verze

Po více než roce vývoje od vydání verze 1.20.0 byla vydána nová stabilní verze 1.22.0 webového serveru a reverzní proxy nginx (Wikipedie). Nová verze přináší řadu novinek. Podrobný přehled v souboru CHANGES-1.22.

Ladislav Hagara | Komentářů: 1
24.5. 18:33 | Nová verze

Desktopová verze svobodného kancelářského balíku OnlyOffice (Wikipedie) byla vydána ve verzi 7.1 (7.1.0). Přehled novinek v příspěvku na blogu a na YouTube. Nejnovější OnlyOffice je již také na Flathubu a Snapcraftu.

Ladislav Hagara | Komentářů: 10
24.5. 17:00 | IT novinky

Logitech dnes představil myš MX Master 3S a mechanické klávesnice MX Mechanical a MX Mechanical Mini.

Ladislav Hagara | Komentářů: 26
Na sociálních sítích nebo jiných webových diskuzích vystupuji pod
 (60%)
 (16%)
 (23%)
Celkem 334 hlasů
 Komentářů: 29, poslední 24.5. 00:02
Rozcestník


Dotaz: Ocr v Linuxu

13.5.2013 13:42 Jack Hokus | skóre: 34 | blog: LostHeaven
Ocr v Linuxu
Přečteno: 1047×
Ahoj,

pokouším se extrahovat text ze souboru pomocí programu Gocr. Program spouštím z konzole s těmito paramtry [petr@localhost Plocha]$ gocr -f HTML -i meditace.jpg -o meditace.txt.

Výstupní soubor se sice vytvoří, ale zůstane prázdný. Zatím se mi nepovedlo najít řešení tohoto problému. Budu vděčný za jakoukoli relevantní odpověď

Petr

PS: Základní návod jsem našel zde.
http://www.jackhokus.cz/

Odpovědi

stativ avatar 13.5.2013 13:51 stativ | skóre: 54 | blog: SlaNé roury
Rozbalit Rozbalit vše Re: Ocr v Linuxu
Začal bych tím, že bych použil Tesseract místo GOCR (kdykoliv jsem zkoušel GOCR, tak výsledky nebyly zrovna přesvědčivé).
Ať sežeru elfa i s chlupama!!! ljirkovsky.wordpress.com stativ.tk
14.5.2013 09:30 Jack Hokus | skóre: 34 | blog: LostHeaven
Rozbalit Rozbalit vše Re: Ocr v Linuxu
Dobrý den,

zkusil jsem tesseract. Na poprvé to nedopadlo moc dobře. Po zadání příkazu ve tvaru tesseract test.jpg out -l ces jsem dostal hlášku o neoprávněném přístupu do paměti. Google mi hodil odkaz na bugzillu, kde jsem našel hodně podobnou chybu.

Nakonec byl problém na mé straně. Bylo třeba doinstalovat balíček pro češtinu yum install tesseract-langpack-ces.noarch a pády ustaly.

Nicméně, výstupní text je stále nečitelný, problém dělají znaky s diaktitikou. Zkusím ještě potrápit strejdu Googla, nicméně budu věčný za jakoukoli radu.

Petr
http://www.jackhokus.cz/
14.5.2013 10:14 ikar
Rozbalit Rozbalit vše Re: Ocr v Linuxu
Jak vypadá ten test.jpg? Pro OCR je kvalita skenu docela podstatná...
stativ avatar 14.5.2013 12:32 stativ | skóre: 54 | blog: SlaNé roury
Rozbalit Rozbalit vše Re: Ocr v Linuxu
Tesseract má (měl?) navíc takovou divnou vlastnost, že výsledky rozpoznávání závisí i na tom, jestli byl obrázek uložen ve stupních šedi nebo barevně.
Ať sežeru elfa i s chlupama!!! ljirkovsky.wordpress.com stativ.tk
15.5.2013 10:19 Jack Hokus | skóre: 34 | blog: LostHeaven
Rozbalit Rozbalit vše Re: Ocr v Linuxu
Dobrý den,

včera jsem s úspěchem zkusil Cuneiform. Dnes se ke stroji na kterém to řeším nedostanu, ale zítra zkusím dodat nějaké podrobnosti.

Petr
http://www.jackhokus.cz/
15.5.2013 11:32 martin
Rozbalit Rozbalit vše Re: Ocr v Linuxu
Používám gui pro Cuneiform i Tesseract Yagf k úplné spokojenosti. Ke skenování dokumentů VueScan.
20.5.2013 11:53 Jack Hokus | skóre: 34 | blog: LostHeaven
Rozbalit Rozbalit vše Re: Ocr v Linuxu
Dobrý den,

díky za typ, yagf funguje znamenitě

Petr
http://www.jackhokus.cz/
20.5.2013 19:50 dep
Rozbalit Rozbalit vše Re: Ocr v Linuxu
Existuje v Linuxu nejaka moznost jak vytvaret prohledavatelne pdf? (Tj. provest OCR na obrazky ulozene v pdf a vysledek ulozit do tohoto pdf a propojit se souradnicemi v obrazku)
21.5.2013 11:53 Jack Hokus | skóre: 34 | blog: LostHeaven
Rozbalit Rozbalit vše Re: Ocr v Linuxu
Dobrý den,

nejsem si jistý, zda jsem dobře porozuměl tomu co potřebujete, zkuste to trochu rozvést. Pokud Vám jde o vyhledání nějakého řetězce v textu, tak pdf dokumenty vytvořené v LaTeXu to zvládnou. Jestli potřebujete něco jiného, zkuste doplnit dotaz

Petr
http://www.jackhokus.cz/
21.5.2013 12:36 dustin | skóre: 62 | blog: dustin
Rozbalit Rozbalit vše Re: Ocr v Linuxu
Jde mu o doplnění OCRkovaného textu do naskenovaných obrázků. PDF to podporuje a některé OCR softy umí.
21.5.2013 22:42 hacup | skóre: 8
Rozbalit Rozbalit vše Re: Ocr v Linuxu

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267   www.czech-server.cz
© 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.