abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×

včera 23:00 | Nová verze

Po 9 týdnech vývoje od vydání Linuxu 5.17 oznámil Linus Torvalds vydání Linuxu 5.18 (LKML). Přehled nových vlastností a vylepšení na stránce Linux Kernel Newbies.

Ladislav Hagara | Komentářů: 0
včera 14:44 | Komunita

V Ubuntu 22.10 s kódovým jménem Kinetic Kudu bude zvukový server PulseAudio nahrazen multimediálním serverem PipeWire.

Ladislav Hagara | Komentářů: 9
21.5. 22:44 | Zajímavý článek

Tavis Ormandy popisuje, jak zprovoznil 32 let starý unixový port tabulkového procesoru Lotus 1-2-3 na moderním Linuxu. Doprovodné zdrojové kódy jsou na GitHubu.

Fluttershy, yay! | Komentářů: 9
21.5. 17:00 | Nová verze

Po pěti měsících vývoje od vydání verze 250 byla vydána nová verze 251 správce systému a služeb systemd (GitHub, NEWS).

Ladislav Hagara | Komentářů: 2
21.5. 15:44 | IT novinky

HP ve spolupráci se System76 představil 14" notebook HP Dev One s procesorem AMD Ryzen 7 PRO a předinstalovaným Pop!_OS Linuxem.

Ladislav Hagara | Komentářů: 19
21.5. 15:00 | Nová verze

Byla vydána verze 1.61.0 programovacího jazyka Rust (Wikipedie). Podrobnosti v poznámkách k vydání. Vyzkoušet Rust lze například na stránce Rust by Example.

Ladislav Hagara | Komentářů: 0
19.5. 00:33 | Zajímavý článek

Správce nástroje curl Daniel Stenberg na GitHubu průběžně vytváří svou novou knihu Uncurled, v níž shrnuje své dlouhodobé zkušenosti s údržbou open-source projektu: od odpozorovaných pouček po vtipné a ne až tak vtipné příklady e-mailů od uživatelů.

Fluttershy, yay! | Komentářů: 32
19.5. 00:22 | Nová verze

Byla vydána nová major verze 25.0 programovacího jazyka Erlang (Wikipedie) a související platformy OTP (Open Telecom Platform, Wikipedie). Přehled novinek v příspěvku na blogu.

Ladislav Hagara | Komentářů: 4
19.5. 00:11 | Nová verze

Deno (Wikipedie), běhové prostředí (runtime) pro JavaScript a TypeScript, bylo vydáno ve verzi 1.22. Přehled novinek v poznámkách k vydání.

Ladislav Hagara | Komentářů: 0
18.5. 18:22 | Nová verze

Společnost Red Hat oznámila vydání Red Hat Enterprise Linuxu (RHEL) 9.0. Vedle nových vlastností a oprav chyb přináší také aktualizaci ovladačů a předběžné ukázky budoucích technologií. Podrobnosti v poznámkách k vydání.

Ladislav Hagara | Komentářů: 8
Na sociálních sítích nebo jiných webových diskuzích vystupuji pod
 (61%)
 (15%)
 (23%)
Celkem 322 hlasů
 Komentářů: 28, poslední dnes 14:46
Rozcestník


Dotaz: OCR a PDF s textovou vrstvou

27.6.2019 07:37 jsk | skóre: 10
OCR a PDF s textovou vrstvou
Přečteno: 599×
Zdravím,
potřebuji protáhnout jednotky tisíc stran nafoceného textu (anj, welšina gaelština) přes OCR. Ve výsledku potřebuji PDF s textovou vrstvou. ABBYY FineReader je fakt skvělý, ale cena pro jednorázové použití je fakt značná.
Nevíte o finančně přístupnějším řešení, děkuji.
Pepa

Odpovědi

27.6.2019 08:13 Monika Kokešová | skóre: 4 | blog: Kokeshka
Rozbalit Rozbalit vše Re: OCR a PDF s textovou vrstvou
Nedávno tu o tom byla zprávička: Full-textové prohledávání komiksů a jiných obrázků. Tzn. OCR Tesseract.
27.6.2019 11:53 mpx
Rozbalit Rozbalit vše Re: OCR a PDF s textovou vrstvou
.... mozno usetrim cas na hladanie

tu sa da "odrazit" na tesseract

https://github.com/tesseract-ocr/tesseract/wiki/User-Projects-%E2%80%93-3rdParty

pouzil som "Linux-Intelligent-OCR-Solution(lios" na Manjaro

ja som spokojny
27.6.2019 11:56 mhepp
Rozbalit Rozbalit vše Re: OCR a PDF s textovou vrstvou
scantailor na „vyčištění“ skenovaných obrázků a ocrmypdf na doplnění textové vrstvy.
27.6.2019 12:56 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: OCR a PDF s textovou vrstvou
Ve výsledku potřebuji PDF s textovou vrstvou.
Fujtajxl.

Já to dělám takhle. Protože si tu vrstvu pak můžu poeditovat, vyházet nesmysly a opravit špatně rozeznané texty.
27.6.2019 13:00 Käyttäjä 11133 | skóre: 58 | blog: Ajattelee menneisyyttä
Rozbalit Rozbalit vše Re: OCR a PDF s textovou vrstvou
Protože si tu vrstvu pak můžu poeditovat, vyházet nesmysly a opravit špatně rozeznané texty.
Jo, protoze to v Acrobatu nejde...
27.6.2019 17:38 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: OCR a PDF s textovou vrstvou
Closed source mě nezajímá.
28.6.2019 02:30 Käyttäjä 11133 | skóre: 58 | blog: Ajattelee menneisyyttä
Rozbalit Rozbalit vše Re: OCR a PDF s textovou vrstvou
PDF specifikace je otevrena a hromada OSS nastroju take existuje.
28.6.2019 07:12 Want
Rozbalit Rozbalit vše Re: OCR a PDF s textovou vrstvou
O těch jsi ale nepsal. PDF s textovou vrstvou je bastl. Bohužel se pod tou zkratkou skrývá několik různých typů dokumentů, které většina uživatelů není schopna rozlišovat, jako v dobách modemů.

Jenže tady nejde o data. DjVu je pro zpracování přes OCR vhodnější, protože je-li dokument udělaný správně, má odseparovanou vrstvu vrstvu popředí, ve které je většinou text, což výrazně zvyšuje úspěšnost OCR.

Navíc jeho textová vrstva je navržena tak, že může obsahovat nejenom originální text, ale i jeho překlady. A textovou vrstvu lze doplnit i u dokumentů, které přes OCR nikdy nezvládne, jako jsou např. rukopisy atp.
28.6.2019 07:17 Want
Rozbalit Rozbalit vše Re: OCR a PDF s textovou vrstvou
Naopak udělat PDF s textovou vrstvou, jak to chce tazatel, je z DjVu dokumentu brnkačka. DjVu totiž může mít i vrstvu ve které je originální sken v JPEG-2000. Takže je technicky možné udělat takový dokument i bez ztráty kvality obrazu.
Jendа avatar 27.6.2019 16:39 Jendа | skóre: 77 | blog: Jenda | JO70FB
Rozbalit Rozbalit vše Re: OCR a PDF s textovou vrstvou
Řešení inflace: přidat do spotřebního koše Bitcoin
27.6.2019 17:05 Filip Jirsák | skóre: 68 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: OCR a PDF s textovou vrstvou
ABBYY FineReader má i online řešení, ale v porovnání s verzí Standard moc neušetříte. Ale služeb „online OCR“ je spousta.

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267   www.czech-server.cz
© 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.