Portál AbcLinuxu, 5. května 2025 23:04

Dotaz: OCR a PDF s textovou vrstvou

27.6.2019 07:37 jsk | skóre: 10
OCR a PDF s textovou vrstvou
Přečteno: 682×
Odpovědět | Admin
Zdravím,
potřebuji protáhnout jednotky tisíc stran nafoceného textu (anj, welšina gaelština) přes OCR. Ve výsledku potřebuji PDF s textovou vrstvou. ABBYY FineReader je fakt skvělý, ale cena pro jednorázové použití je fakt značná.
Nevíte o finančně přístupnějším řešení, děkuji.
Pepa
Nástroje: Začni sledovat (1) ?Zašle upozornění na váš email při vložení nového komentáře.

Odpovědi

27.6.2019 08:13 Monika Kokešová | skóre: 4 | blog: Kokeshka
Rozbalit Rozbalit vše Re: OCR a PDF s textovou vrstvou
Odpovědět | | Sbalit | Link | Blokovat | Admin
Nedávno tu o tom byla zprávička: Full-textové prohledávání komiksů a jiných obrázků. Tzn. OCR Tesseract.
27.6.2019 11:53 mpx
Rozbalit Rozbalit vše Re: OCR a PDF s textovou vrstvou
Odpovědět | | Sbalit | Link | Blokovat | Admin
.... mozno usetrim cas na hladanie

tu sa da "odrazit" na tesseract

https://github.com/tesseract-ocr/tesseract/wiki/User-Projects-%E2%80%93-3rdParty

pouzil som "Linux-Intelligent-OCR-Solution(lios" na Manjaro

ja som spokojny
27.6.2019 11:56 mhepp
Rozbalit Rozbalit vše Re: OCR a PDF s textovou vrstvou
Odpovědět | | Sbalit | Link | Blokovat | Admin
scantailor na „vyčištění“ skenovaných obrázků a ocrmypdf na doplnění textové vrstvy.
27.6.2019 12:56 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: OCR a PDF s textovou vrstvou
Odpovědět | | Sbalit | Link | Blokovat | Admin
Ve výsledku potřebuji PDF s textovou vrstvou.
Fujtajxl.

Já to dělám takhle. Protože si tu vrstvu pak můžu poeditovat, vyházet nesmysly a opravit špatně rozeznané texty.
27.6.2019 13:00 Käyttäjä 11133 | skóre: 58 | blog: Ajattelee menneisyyttä
Rozbalit Rozbalit vše Re: OCR a PDF s textovou vrstvou
Protože si tu vrstvu pak můžu poeditovat, vyházet nesmysly a opravit špatně rozeznané texty.
Jo, protoze to v Acrobatu nejde...
27.6.2019 17:38 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: OCR a PDF s textovou vrstvou
Closed source mě nezajímá.
28.6.2019 02:30 Käyttäjä 11133 | skóre: 58 | blog: Ajattelee menneisyyttä
Rozbalit Rozbalit vše Re: OCR a PDF s textovou vrstvou
PDF specifikace je otevrena a hromada OSS nastroju take existuje.
28.6.2019 07:12 Want
Rozbalit Rozbalit vše Re: OCR a PDF s textovou vrstvou
O těch jsi ale nepsal. PDF s textovou vrstvou je bastl. Bohužel se pod tou zkratkou skrývá několik různých typů dokumentů, které většina uživatelů není schopna rozlišovat, jako v dobách modemů.

Jenže tady nejde o data. DjVu je pro zpracování přes OCR vhodnější, protože je-li dokument udělaný správně, má odseparovanou vrstvu vrstvu popředí, ve které je většinou text, což výrazně zvyšuje úspěšnost OCR.

Navíc jeho textová vrstva je navržena tak, že může obsahovat nejenom originální text, ale i jeho překlady. A textovou vrstvu lze doplnit i u dokumentů, které přes OCR nikdy nezvládne, jako jsou např. rukopisy atp.
28.6.2019 07:17 Want
Rozbalit Rozbalit vše Re: OCR a PDF s textovou vrstvou
Naopak udělat PDF s textovou vrstvou, jak to chce tazatel, je z DjVu dokumentu brnkačka. DjVu totiž může mít i vrstvu ve které je originální sken v JPEG-2000. Takže je technicky možné udělat takový dokument i bez ztráty kvality obrazu.
Jendа avatar 27.6.2019 16:39 Jendа | skóre: 78 | blog: Jenda | JO70FB
Rozbalit Rozbalit vše Re: OCR a PDF s textovou vrstvou
Odpovědět | | Sbalit | Link | Blokovat | Admin
https://brmlab.cz/user/jenda/pdfwarez
27.6.2019 17:05 Filip Jirsák | skóre: 68 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: OCR a PDF s textovou vrstvou
Odpovědět | | Sbalit | Link | Blokovat | Admin
ABBYY FineReader má i online řešení, ale v porovnání s verzí Standard moc neušetříte. Ale služeb „online OCR“ je spousta.

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.