Portál AbcLinuxu, 16. července 2025 15:01


Dotaz: Převod naskenovaného PDF na obrázek

28.12.2005 15:30 Sedeki | skóre: 17 | blog: sedeki
Převod naskenovaného PDF na obrázek
Přečteno: 1588×
Odpovědět | Admin
Mám velké množství studijních materiálů v PDF, bohužel jsou to hnusné oskenované stránky. Pro čtení na obrazovce to tedy moc není a pro tisk nemůžu použít jednoduše pdftotext. Vytisknout to ale jako 300 stran obrázků je o toner, navíc čitelnost díky flekům je stejně mizerná jako na obrazovce.

Jednotlivé znaky jsou docela výrazné, takže použít OCR by nebyl problém. Jenomže žádný z mě známých OCR pro Linux PDF nepřečte a stejně tak žádný z programů na čtení PDF nemá hromadný export do PNG nebo obd. v pořádné kvalitě. Pokud třeba v KPDF (navíc ručně) označím část textu a dám ho vyimportovat jako PNG, vyjde, asi kvůli nastavené vysoké kompresi jen barevný flek.

Jak to provést?
Mnozí spadnou dolů a jen málokteří spatří znovu slunce.
Nástroje: Začni sledovat (0) ?Zašle upozornění na váš email při vložení nového komentáře.

Odpovědi

28.12.2005 16:01 Zdeněk Burda | skóre: 61 | blog: Zdendův blog | Praha
Rozbalit Rozbalit vše Re: Převod naskenovaného PDF na obrázek
Odpovědět | | Sbalit | Link | Blokovat | Admin
convert soubor.pdf soubor.png

convert je součástí balíku ImageMagick
-- Nezdar není hanbou, hanbou je strach z pokusu.
28.12.2005 16:57 #Tom
Rozbalit Rozbalit vše Re: Převod naskenovaného PDF na obrázek
Odpovědět | | Sbalit | Link | Blokovat | Admin
Mně se osvědčil příkaz pdftoppm z balíku Xpdf. Převádí na obrázky i běžné (vektorové) PDF soubory.
28.12.2005 18:04 vend | skóre: 19
Rozbalit Rozbalit vše Re: Převod naskenovaného PDF na obrázek
Odpovědět | | Sbalit | Link | Blokovat | Admin

Jde to i pomocí GhostScriptu. Pokud zadáš jako -sDEVICE=jpeg
a -sOUTPUTFILE=obrazek.jpg , tak dostaneš výstup (v souboru obrazek.jpg) jako jpeg.

Viz: man gs

28.12.2005 18:44 Peter Golis | skóre: 65 | blog: Bežné záležitosti | Bratislava
Rozbalit Rozbalit vše Re: Převod naskenovaného PDF na obrázek
zaujimala by ma ucinnost konverzie daneho dokumentu ulozeneho do formatu JPG a skonvertovaneho na text pomocou OCR. nie preto ze by som chcel byt neslusny, ale spomenul som si na stare vysokoskolske skripta kopirovane pomocou cyklostylu.
28.12.2005 18:27 #Tom
Rozbalit Rozbalit vše Ach jo
Odpovědět | | Sbalit | Link | Blokovat | Admin
Zase jsem sem jednou poslal ptákoviny. Zatímco Ghostscipt (a ImageMagick, který se obslouží přes něj) i pdftoppm se namáhají s vykreslováním PDF do paměti a následným ukládáním obrázků do souboru - a to trvá celkem dlouho - takové pdfimages (rovněž z Xpdf balíku) uloží pěkně všechny rastrové obrázky z PDF do souborů ve formátu PPM, PBM či JPEG a hlavně rychle. Není třeba se obtěžovat s DPI a podobnými věcmi.
28.12.2005 21:18 Sedeki | skóre: 17 | blog: sedeki
Rozbalit Rozbalit vše Re: Převod naskenovaného PDF na obrázek
Odpovědět | | Sbalit | Link | Blokovat | Admin
Díky, uvedené možnosti fungují dobře. A co se týče úspěšnosti OCR (ocrad) u daných dokumentů je to cca od 80 do 92 procent + ledacos doplní aspell. Na to, jak nekvalitní je předloha (naprosto porušené kompresí + některá menší písmenka jsou snad z 8x5 pixelů) je to docela úspěch a výsledek se dá docela obstojně použít.
Mnozí spadnou dolů a jen málokteří spatří znovu slunce.

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.