Portál AbcLinuxu, 10. května 2025 06:54

Dotaz: PDF na text

18.2.2011 09:31 eth4rendil | skóre: 13
PDF na text
Přečteno: 620×
Odpovědět | Admin
Dobrý deň,

chcel by som Vás poprosiť o pomoc s nasledujúcou vecou.

Snažím sa o konverziu zaheslovaného PDFka do txt:
# file 36789_00_1398_2011-02-16.pdf
36789_00_1398_2011-02-16.pdf: PDF document, version 1.3
skúsil som to cez:
pdftotext - Portable Document Format (PDF)to text converter (version 3.00)
#pdftotext 36789_00_1398_2011-02-16.pdf -upw heslo
toto mi vrati vysledok, ktory vyzera asi takto:
BZOYTVL^Pi]Vs rpP^ )0)0/*-./0 ?PYL 8FC 7o^_X (,%’)%)’(( <54@ D=/) ((’’ ’’’’ ’’)0 )0/* -./0 5<6

skúsil som to s druhým nezaheslovaným PDF:
readme.pdf: PDF document, version 1.4
a tam mi to skonvertovalo úplne normálne.

Taktiež som to skúsil cez perl CAM::PDF
#!/usr/bin/perl

use CAM::PDF;
use CAM::PDF::PageText;

$filename = "pdf/36789_00_1398_2011-02-16.pdf";
#$filename = "pdf/readme.pdf";

my $doc = CAM::PDF->new($filename,q{},q{}, 1) || die "$CAM::PDF::errstr\n";
#my $doc = CAM::PDF->new($filename) || die "$CAM::PDF::errstr\n";

for my $pagenum (1 .. $doc->numPages()) {
   my $text = $doc->getPageText($pagenum);
   print $text;
}
ale tu sa ma dookola pýta na heslo a nerobí nič.

Používam Debian Squeeze.

Máte niekto skúsenosti s konvertovaním PDFka to textu.

Ďakujem
Nástroje: Začni sledovat (1) ?Zašle upozornění na váš email při vložení nového komentáře.

Odpovědi

18.2.2011 09:35 Jindrich
Rozbalit Rozbalit vše Re: PDF na text
Odpovědět | | Sbalit | Link | Blokovat | Admin
Poohlédněte se po utilitě pdfcrack.
18.2.2011 10:18 eth4rendil | skóre: 13
Rozbalit Rozbalit vše Re: PDF na text
ďakujem za pripevok, ale pdfcrack sa snaži iba zistiť heslo pdfka. Heslo viem, ja sa to snažim to PDFko konvertovať do textu
18.2.2011 10:27 Jindrich
Rozbalit Rozbalit vše Re: PDF na text
Ještě je nějaká online služba, která heslo ze souboru odebere (myslel jsem, že to umí i pdfcrack...), pak není problém zkonvertovat výsledný soubor, kde to heslo už není...
18.2.2011 11:36 eth4rendil | skóre: 13
Rozbalit Rozbalit vše Re: PDF na text
no heslo som odobral takto: qpdf --password=heslo --decrypt in.pdf out.pdf

vystup je vo formate PDF document, version 1.3.

ale teraz sa mi zase vobec nedari to skonvertovat na text..
18.2.2011 12:36 NN
Rozbalit Rozbalit vše Re: PDF na text
poppler-utils (pdftotext)

NN
18.2.2011 13:23 eth4rendil | skóre: 13
Rozbalit Rozbalit vše Re: PDF na text
ďakujem za radu, ale v prvom príspevku som spomínal pdftotext. Výsledok z toho vyzerá asi takto:

BZOYTVL^Pi]Vs rpP^ )0)0/*-./0 ?PYL 8FC 7o^_X (,%’)%)’(( <54@ D=/) ((’’ ’’’’ ’’)0 )0/* -./0 5<6 DH<9E! E4ECD=5I
Chytrex avatar 18.2.2011 15:14 Chytrex | skóre: 30 | Bohumín
Rozbalit Rozbalit vše Re: PDF na text
A jsi si jist že ten text je opavdu text v tom pdf? Může to být text vložený jako obrázek a prostě to nepřevedeš.. možná tak OCRkem.. Zkusil bych v kpdf (nebo v jiném pdf prohlížeči) vypnout DRM a zkusit zkopírovat kus textu zda to bude textové:)
Hrdý člen KERNEL ULTRAS .:. define QUESTION ((bb) || !(bb)) .:. Odmítám vaši realitu a nahrazuji ji svou vlastní..
18.2.2011 17:50 eth4rendil | skóre: 13
Rozbalit Rozbalit vše Re: PDF na text
ano viem to z určitostou potvrdiť. pomocou tejto služby som to pdfko zkonvertoval to txt http://www.convertpdftotext.net/ okrem toho ked ho otvorím vo windowse tak ctrl + c text môžem skopírovať a vložiť do textového editoru
20.2.2011 16:40 eth4rendil | skóre: 13
Rozbalit Rozbalit vše Re: PDF na text
hmm zistil som jednu zaujimavu vec: ono ten nezmyselny text, ktorý mi exportuje pdftotxt vlastne dáva zmysel
napr: 
$ je -
B je P
Z je o
O je d

teda tento string:
BZOYTVL^Pi]Vs rpP^
je vlastne
Podnikatelsky ucet
Nedáva to niekomu zmysel čo to môže byť a ako to najjednoduchšie preložiť?

Ďakujem
20.2.2011 18:04 chrono
Rozbalit Rozbalit vše Re: PDF na text
S týmto som sa pred pár rokmi stretol pri pdf súboroch s elektronickou verziou jedného časopisu. Používali to ako ochranu a fungovalo im to tak, že tam používali špeciálne písmo, ktoré malo poprehadzované znaky (a zodpovedajúco bol upravený text).
20.2.2011 22:33 eth4rendil | skóre: 13
Rozbalit Rozbalit vše Re: PDF na text
Myslím, že to môže byť neaká forma ochrany. Napr. teraz keď som z druhého počítača skopíroval vo win Adobe Readeri cez Ctrl + C a vložil to do notepadu dostal som presne ten istý zlý výsledok ako v linuxe. Vám sa to nakoniec ako podrailo vyriešiť?
stativ avatar 21.2.2011 08:28 stativ | skóre: 54 | blog: SlaNé roury
Rozbalit Rozbalit vše Re: PDF na text
Nedáva to niekomu zmysel čo to môže byť a ako to najjednoduchšie preložiť?

Ďakujem
Smysl mi to sice nedává, ale jestli je to opravdu tak, použij tr pro nahrazení písmenek za správná.
lukas@black-dragon:~> echo "BZOYTVL^Pi]Vs rpP^" > test
lukas@black-dragon:~> tr "BZOYTVL^Pi]Vsrp" "Podnikatelskyuc" < test 
Podnikatelsky ucet
Ať sežeru elfa i s chlupama!!! ljirkovsky.wordpress.com stativ.tk
21.2.2011 09:33 eth4rendil | skóre: 13
Rozbalit Rozbalit vše Re: PDF na text
ďakujem za radu. Takto som to už skúšal ale cez perl $out =~ tr/\$BZOYTVL^Pi]Vsrp)0\/*\-\.?L8FC7o\_X(,%<54@D=6H9EU;\\/-Podnikatelskyuc298367MaEurdaum15.IBANSKCWFTjHr/;

je to vcelku časovo náročné, ale hlavný problém je vtom, že sa jedná o výpisy z banky, ktoré chodia denné a ked som vytvoril podľa jedneho dna vzor na prevod znakov tak na PDFku z druhého dňa to už "nepasovalo" a znova boli poprehadzované znaky...
21.2.2011 15:05 chrono
Rozbalit Rozbalit vše Re: PDF na text
Pdf súbory nie sú zrovna určené na počítačové spracovávanie. Tá banka neposkytuje tie údaje aj v inej, použiteľnejšej forme (často sa to dá stiahnuť ako csv alebo xml súbor).
stativ avatar 18.2.2011 15:32 stativ | skóre: 54 | blog: SlaNé roury
Rozbalit Rozbalit vše Re: PDF na text
Hmm, mám úplně stejný problém s tímto PDF. Chtěl bych to přeložit a ten samý problém se týká i google translate a adobe reader.
Ať sežeru elfa i s chlupama!!! ljirkovsky.wordpress.com stativ.tk
stativ avatar 18.2.2011 15:34 stativ | skóre: 54 | blog: SlaNé roury
Rozbalit Rozbalit vše Re: PDF na text
Podle mě je ten text vykřivkovaný.
Ať sežeru elfa i s chlupama!!! ljirkovsky.wordpress.com stativ.tk
18.2.2011 15:40 helb
Rozbalit Rozbalit vše Re: PDF na text
Příloha:
Je to ještě zvrácenější, jednotlivá písmenka jsou tam jako bitmapy (viz přílohu). Tedy alespoň podle Adobe...
stativ avatar 18.2.2011 16:38 stativ | skóre: 54 | blog: SlaNé roury
Rozbalit Rozbalit vše Re: PDF na text
No tak to tedy fuj. Díky za ozkoušení. Předpokládám, že tazatel má naprosto stejný problém – tváří se, že to jde převést, text jde i vybrat ale výsledek je vše možné, jenom ne text.
Ať sežeru elfa i s chlupama!!! ljirkovsky.wordpress.com stativ.tk
21.2.2011 11:19 Ivan
Rozbalit Rozbalit vše Re: PDF na text
Odpovědět | | Sbalit | Link | Blokovat | Admin
Nastroj na konverzi PDF do textu(nebo do .ps) je i acrobat reader. Nevim jak je na tom aktualni verze, ale ty predchozi mely command line option pro konverzi na .txt.
21.2.2011 15:04 chrono
Rozbalit Rozbalit vše Re: PDF na text
Pri takto "chránených" súboroch to nijako nepomôže.
21.2.2011 16:01 eth4rendil | skóre: 13
Rozbalit Rozbalit vše Re: PDF na text
Skúšal som to na win Adobe Reader 9.1 uložiť ako text a funguje to normálne - korektne mi uložilo znaky. Na laptope mám nainštalovanú staršiu verziu adobe a tam to uložilo nesprávne znaky. Na debiana som dal Adobe Acrobat Reader: 9.4.1-0.1. Ten ale zrejme nevie bežať bez GUI resp. konvertovať do TXT z príkozového riadku...

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.