Portál AbcLinuxu, 28. dubna 2024 16:03

Převod PDF na text

6.1.2005 21:17 | Přečteno: 12864× | Software & hardware | poslední úprava: 3.5.2005 23:00

PDF od Novellu

Při zadání podobného dotazu jako je titulek do Google vám vypadne velké množství odkazů na různé programy tuto akci umožnující (prý i se 100% kvalitou !) ale z linuxových se objeví pouze pdf2ps, pdftotext a ps2ascii, případně jejich různé kombinace.

Tak tedy k tomu, proč jsem tento zápisek stvořil. Včera pozdě večer mi přišel do schránky mail s názvem "Happy 2005 from Novell Customer Communities: Linux Quick Reference Guide", od kterého jsem čekal odkaz na objedávací formulář nějaké pěkné bichle. Nebylo tomu ovšem tak a vevnitř na mně vykoukl odkaz na takové reklamní PDF se základními příkazy do Linuxu, které se ovšem (zvláště začínajícím uživatelům) mohou hodit.

Byl tu ovšem problém právě v té reklamnosti - polovinu stránky A4 tvoří, jak můžete vidět na obrázku, příkazy a druhou polovinu zelená plocha, což se cartridgi v mé tiskárně náramně zamlouvá... To abych si po vytištění třináctistránkové příručky šel koupit novou.

Tak jsem začal hledat řešení pro konverzi do textového souboru, které se po vyzkoušení pdftotext objevilo v podobě programu pdf2ps. Pdftotext mi při pokusu o konverzi prostě nahlásil, že dokument je chráněný a nejde z něj text vykopírovat. S tím jsem se ale nehodlal smířit už proto, že když ten text vidím, tak přece musí v tom PDF někde být...

Podle manuálové stránky je použití ps2ascii jednoduché:

POUŽITÍ
       ps2ascii [ vstup.ps [ výstup.txt ] ]
       ps2ascii vstup.pdf [ výstup.txt ]

Zájemci si mohou stáhnout zmíněné PDF nebo jeho textovou variantu.

       

Hodnocení: 100 %

        špatnédobré        

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

Komentáře

Nástroje: Začni sledovat (0) ?Zašle upozornění na váš email při vložení nového komentáře. , Tisk

Vložit další komentář

3.2.2005 20:09 ktx
Rozbalit Rozbalit vše funguje
Odpovědět | Sbalit | Link | Blokovat | Admin
takze pdf2ascii funguje aj pri chranenych pdfkach, dobre vediet :P
6.2.2005 22:06 medulin | skóre: 31 | blog: medulin | ČR
Rozbalit Rozbalit vše nefunguje
Odpovědět | Sbalit | Link | Blokovat | Admin
[tomas@tomas otazky ke zkousce]$ ps2ascii otazky-vypracovane.pdf [ otazky.txt ]
ESP Ghostscript 7.07.2: Unrecoverable error, exit code 1
me to nejde :-( delam neco spatne?

[tomas@tomas otazky ke zkousce]$ pdfinfo otazky-vypracovane.pdf
Title: Microsoft Word - otázky.doc
Author: ... Creator: ADOBEPS4.DRV Version 4.50
Producer: Acrobat Distiller 5.0.5 (Windows)
CreationDate: Sun Jan 2 11:13:48 2005
ModDate: Sun Jan 2 11:13:48 2005
Tagged: no
Pages: 30
Encrypted: no
Page size: 595 x 842 pts (A4)
File size: 1217313 bytes
Optimized: yes
PDF version: 1.3

6.2.2005 22:17 Jan Grmela | skóre: 45 | blog: Kilo šťávy z lachtana | Brno
Rozbalit Rozbalit vše Re: nefunguje
No nejdriv bych asi zkusil nejakou novou verzi GS, treba z CVS nebo kontaktoval vyvojare.
9.3.2012 17:59 VelkyBubak
Rozbalit Rozbalit vše Re: nefunguje
Vím, že na tohle odpovídám s křížkem po funuse, ale to bude tím, že autor použil nejdříve

pdf2ps

a teprve poté

ps2ascii

tedy pro tento případ:

pdf2ps otazky-vypracovane.pdf [ otazky.ps ]

ps2ascii otazky.ps [ otazky.txt ]

15.3.2005 22:31 OldFrog {Ondra Nemecek} | skóre: 36 | blog: Žabákův notes | Praha
Rozbalit Rozbalit vše pdftotext
Odpovědět | Sbalit | Link | Blokovat | Admin
Zasadni aplikaci pro prevod pdf do textu je
pdftotext
ktery je soucasti xpdf. Umi i diakritiku. Nefunguje 100%, ale nic lepsiho zdarma pro linux asi neexistuje.
-- OldFrog
15.3.2005 22:33 OldFrog {Ondra Nemecek} | skóre: 36 | blog: Žabákův notes | Praha
Rozbalit Rozbalit vše Re: pdftotext
A jednoucelovy orez a tisk bych resil prevodem do bitmapy a naslednym tiskem. Lepsi vysledek by umoznilo pouziti pdfTeXu a balicku pdfpages.
-- OldFrog
regine2 avatar 15.4.2012 14:49 regine2 | skóre: 14
Rozbalit Rozbalit vše Re: Převod PDF na text
Odpovědět | Sbalit | Link | Blokovat | Admin

Protože na ŽIVĚ cenzor tento můj dobrý odkaz dnes 15.4.2012 nepříčetně maže (vím není zde normálně místo pro MS-produkty, ale zkuste ve Wine)

Wondershare PDF Editor dočasně BETA free - a mě funguje - stahujte:

první odkaz

pdf-editor druhý odkaz
Dokud nepřiletí mimozemšťané, všechno už jaksi bylo.
28.11.2017 21:50 monina
Rozbalit Rozbalit vše Re: Převod PDF na text
Odpovědět | Sbalit | Link | Blokovat | Admin

pro všechny, kdo jsem přijdou a hledají jak převést pdf do wordu - tedy textu

http://otevrito.cz/o/jak-prevest-pdf-do-word-doc-docx

Založit nové vláknoNahoru

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.