abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 03:55 | Komunita

    Byly vyhlášeny výsledky letošní volby vedoucího projektu Debian (DPL, Wikipedie). Staronovým vedoucím zůstává Andreas Tille.

    Ladislav Hagara | Komentářů: 3
    včera 16:55 | IT novinky

    Jason Citron končí jako CEO Discordu. Od pondělí 28. dubna nastupuje nový CEO Humam Sakhnini, bývalý CSO Activision Blizzard.

    Ladislav Hagara | Komentářů: 4
    včera 14:22 | Nasazení Linuxu

    Článek na Libre Arts představuje baskytarový multiefekt Anagram od společnosti Darkglass Electronics. S Linuxem uvnitř (licence, GitHub).

    Ladislav Hagara | Komentářů: 1
    včera 10:22 | IT novinky

    Městský soud v Praze vyhlásil rozsudek, který vyhověl žalobě novináře Jana Cibulky, který s podporou spolku IuRe (Iuridicum Remedium) požadoval omluvu od státu za to, že česká legislativa nařizuje operátorům uchovávat metadata o elektronické komunikaci. To je přitom v rozporu s právem. Stát se musí novináři omluvit a zaplatit náklady řízení. Především je ale součástí přelomové rozhodnutí o nelegálnosti shromažďování dat a o

    … více »
    Ladislav Hagara | Komentářů: 6
    včera 08:22 | IT novinky

    Americké technologické firmy Apple a Meta Platforms porušily pravidla na ochranu unijního trhu, uvedla včera Evropská komise (EK). Firmám proto vyměřila pokutu – Applu 500 milionů eur (12,5 miliardy Kč) a Metě 200 milionů eur (pět miliard Kč). Komise to oznámila v tiskové zprávě. Jde o první pokuty, které souvisejí s unijním nařízením o digitálních trzích (DMA). „Evropská komise zjistila, že Apple porušil povinnost vyplývající z nařízení

    … více »
    Ladislav Hagara | Komentářů: 28
    včera 08:11 | IT novinky

    Americká společnost OpenAI, která stojí za chatovacím robotem ChatGPT, by měla zájem o webový prohlížeč Chrome, pokud by jeho současný majitel, společnost Google, byl donucen ho prodat. Při slyšení u antimonopolního soudu ve Washingtonu to řekl šéf produktové divize ChatGPT Nick Turley.

    Ladislav Hagara | Komentářů: 0
    včera 07:55 | Nová verze

    Po roce vývoje od vydání verze 1.26.0 byla vydána nová stabilní verze 1.28.0 webového serveru a reverzní proxy nginx (Wikipedie). Nová verze přináší řadu novinek. Podrobný přehled v souboru CHANGES-1.28.

    Ladislav Hagara | Komentářů: 0
    včera 07:44 | Nová verze

    Byla vydána nová verze 10.0.0 otevřeného emulátoru procesorů a virtualizačního nástroje QEMU (Wikipedie). Přispělo 211 vývojářů. Provedeno bylo více než 2 800 commitů. Přehled úprav a nových vlastností v seznamu změn.

    Ladislav Hagara | Komentářů: 0
    23.4. 16:33 | Komunita

    42 svobodných a otevřených projektů získalo finanční podporu od NLnet Foundation (Wikipedie).

    Ladislav Hagara | Komentářů: 0
    23.4. 12:22 | IT novinky

    Americký výrobce čipů Intel plánuje propustit více než 20 procent zaměstnanců. Cílem tohoto kroku je zjednodušit organizační strukturu ve firmě, která se potýká s problémy.

    Ladislav Hagara | Komentářů: 11
    Jaký filesystém primárně používáte?
     (58%)
     (1%)
     (10%)
     (21%)
     (4%)
     (1%)
     (2%)
     (0%)
     (1%)
     (2%)
    Celkem 449 hlasů
     Komentářů: 18, poslední 17.4. 12:41
    Rozcestník

    Dotaz: PDF na text

    18.2.2011 09:31 eth4rendil | skóre: 13
    PDF na text
    Přečteno: 619×
    Dobrý deň,

    chcel by som Vás poprosiť o pomoc s nasledujúcou vecou.

    Snažím sa o konverziu zaheslovaného PDFka do txt:
    # file 36789_00_1398_2011-02-16.pdf
    36789_00_1398_2011-02-16.pdf: PDF document, version 1.3
    
    skúsil som to cez:
    pdftotext - Portable Document Format (PDF)to text converter (version 3.00)
    #pdftotext 36789_00_1398_2011-02-16.pdf -upw heslo
    
    toto mi vrati vysledok, ktory vyzera asi takto:
    BZOYTVL^Pi]Vs rpP^ )0)0/*-./0 ?PYL 8FC 7o^_X (,%’)%)’(( <54@ D=/) ((’’ ’’’’ ’’)0 )0/* -./0 5<6

    skúsil som to s druhým nezaheslovaným PDF:
    readme.pdf: PDF document, version 1.4
    a tam mi to skonvertovalo úplne normálne.

    Taktiež som to skúsil cez perl CAM::PDF
    #!/usr/bin/perl
    
    use CAM::PDF;
    use CAM::PDF::PageText;
    
    $filename = "pdf/36789_00_1398_2011-02-16.pdf";
    #$filename = "pdf/readme.pdf";
    
    my $doc = CAM::PDF->new($filename,q{},q{}, 1) || die "$CAM::PDF::errstr\n";
    #my $doc = CAM::PDF->new($filename) || die "$CAM::PDF::errstr\n";
    
    for my $pagenum (1 .. $doc->numPages()) {
       my $text = $doc->getPageText($pagenum);
       print $text;
    }
    
    ale tu sa ma dookola pýta na heslo a nerobí nič.

    Používam Debian Squeeze.

    Máte niekto skúsenosti s konvertovaním PDFka to textu.

    Ďakujem

    Odpovědi

    18.2.2011 09:35 Jindrich
    Rozbalit Rozbalit vše Re: PDF na text
    Poohlédněte se po utilitě pdfcrack.
    18.2.2011 10:18 eth4rendil | skóre: 13
    Rozbalit Rozbalit vše Re: PDF na text
    ďakujem za pripevok, ale pdfcrack sa snaži iba zistiť heslo pdfka. Heslo viem, ja sa to snažim to PDFko konvertovať do textu
    18.2.2011 10:27 Jindrich
    Rozbalit Rozbalit vše Re: PDF na text
    Ještě je nějaká online služba, která heslo ze souboru odebere (myslel jsem, že to umí i pdfcrack...), pak není problém zkonvertovat výsledný soubor, kde to heslo už není...
    18.2.2011 11:36 eth4rendil | skóre: 13
    Rozbalit Rozbalit vše Re: PDF na text
    no heslo som odobral takto: qpdf --password=heslo --decrypt in.pdf out.pdf

    vystup je vo formate PDF document, version 1.3.

    ale teraz sa mi zase vobec nedari to skonvertovat na text..
    18.2.2011 12:36 NN
    Rozbalit Rozbalit vše Re: PDF na text
    poppler-utils (pdftotext)

    NN
    18.2.2011 13:23 eth4rendil | skóre: 13
    Rozbalit Rozbalit vše Re: PDF na text
    ďakujem za radu, ale v prvom príspevku som spomínal pdftotext. Výsledok z toho vyzerá asi takto:

    BZOYTVL^Pi]Vs rpP^ )0)0/*-./0 ?PYL 8FC 7o^_X (,%’)%)’(( <54@ D=/) ((’’ ’’’’ ’’)0 )0/* -./0 5<6 DH<9E! E4ECD=5I
    Chytrex avatar 18.2.2011 15:14 Chytrex | skóre: 30 | Bohumín
    Rozbalit Rozbalit vše Re: PDF na text
    A jsi si jist že ten text je opavdu text v tom pdf? Může to být text vložený jako obrázek a prostě to nepřevedeš.. možná tak OCRkem.. Zkusil bych v kpdf (nebo v jiném pdf prohlížeči) vypnout DRM a zkusit zkopírovat kus textu zda to bude textové:)
    Hrdý člen KERNEL ULTRAS .:. define QUESTION ((bb) || !(bb)) .:. Odmítám vaši realitu a nahrazuji ji svou vlastní..
    18.2.2011 17:50 eth4rendil | skóre: 13
    Rozbalit Rozbalit vše Re: PDF na text
    ano viem to z určitostou potvrdiť. pomocou tejto služby som to pdfko zkonvertoval to txt http://www.convertpdftotext.net/ okrem toho ked ho otvorím vo windowse tak ctrl + c text môžem skopírovať a vložiť do textového editoru
    20.2.2011 16:40 eth4rendil | skóre: 13
    Rozbalit Rozbalit vše Re: PDF na text
    hmm zistil som jednu zaujimavu vec: ono ten nezmyselny text, ktorý mi exportuje pdftotxt vlastne dáva zmysel
    napr: 
    $ je -
    B je P
    Z je o
    O je d
    
    teda tento string:
    BZOYTVL^Pi]Vs rpP^
    je vlastne
    Podnikatelsky ucet
    Nedáva to niekomu zmysel čo to môže byť a ako to najjednoduchšie preložiť?

    Ďakujem
    20.2.2011 18:04 chrono
    Rozbalit Rozbalit vše Re: PDF na text
    S týmto som sa pred pár rokmi stretol pri pdf súboroch s elektronickou verziou jedného časopisu. Používali to ako ochranu a fungovalo im to tak, že tam používali špeciálne písmo, ktoré malo poprehadzované znaky (a zodpovedajúco bol upravený text).
    20.2.2011 22:33 eth4rendil | skóre: 13
    Rozbalit Rozbalit vše Re: PDF na text
    Myslím, že to môže byť neaká forma ochrany. Napr. teraz keď som z druhého počítača skopíroval vo win Adobe Readeri cez Ctrl + C a vložil to do notepadu dostal som presne ten istý zlý výsledok ako v linuxe. Vám sa to nakoniec ako podrailo vyriešiť?
    stativ avatar 21.2.2011 08:28 stativ | skóre: 54 | blog: SlaNé roury
    Rozbalit Rozbalit vše Re: PDF na text
    Nedáva to niekomu zmysel čo to môže byť a ako to najjednoduchšie preložiť?

    Ďakujem
    Smysl mi to sice nedává, ale jestli je to opravdu tak, použij tr pro nahrazení písmenek za správná.
    lukas@black-dragon:~> echo "BZOYTVL^Pi]Vs rpP^" > test
    lukas@black-dragon:~> tr "BZOYTVL^Pi]Vsrp" "Podnikatelskyuc" < test 
    Podnikatelsky ucet
    
    Ať sežeru elfa i s chlupama!!! ljirkovsky.wordpress.com stativ.tk
    21.2.2011 09:33 eth4rendil | skóre: 13
    Rozbalit Rozbalit vše Re: PDF na text
    ďakujem za radu. Takto som to už skúšal ale cez perl $out =~ tr/\$BZOYTVL^Pi]Vsrp)0\/*\-\.?L8FC7o\_X(,%<54@D=6H9EU;\\/-Podnikatelskyuc298367MaEurdaum15.IBANSKCWFTjHr/;

    je to vcelku časovo náročné, ale hlavný problém je vtom, že sa jedná o výpisy z banky, ktoré chodia denné a ked som vytvoril podľa jedneho dna vzor na prevod znakov tak na PDFku z druhého dňa to už "nepasovalo" a znova boli poprehadzované znaky...
    21.2.2011 15:05 chrono
    Rozbalit Rozbalit vše Re: PDF na text
    Pdf súbory nie sú zrovna určené na počítačové spracovávanie. Tá banka neposkytuje tie údaje aj v inej, použiteľnejšej forme (často sa to dá stiahnuť ako csv alebo xml súbor).
    stativ avatar 18.2.2011 15:32 stativ | skóre: 54 | blog: SlaNé roury
    Rozbalit Rozbalit vše Re: PDF na text
    Hmm, mám úplně stejný problém s tímto PDF. Chtěl bych to přeložit a ten samý problém se týká i google translate a adobe reader.
    Ať sežeru elfa i s chlupama!!! ljirkovsky.wordpress.com stativ.tk
    stativ avatar 18.2.2011 15:34 stativ | skóre: 54 | blog: SlaNé roury
    Rozbalit Rozbalit vše Re: PDF na text
    Podle mě je ten text vykřivkovaný.
    Ať sežeru elfa i s chlupama!!! ljirkovsky.wordpress.com stativ.tk
    18.2.2011 15:40 helb
    Rozbalit Rozbalit vše Re: PDF na text
    Příloha:
    Je to ještě zvrácenější, jednotlivá písmenka jsou tam jako bitmapy (viz přílohu). Tedy alespoň podle Adobe...
    stativ avatar 18.2.2011 16:38 stativ | skóre: 54 | blog: SlaNé roury
    Rozbalit Rozbalit vše Re: PDF na text
    No tak to tedy fuj. Díky za ozkoušení. Předpokládám, že tazatel má naprosto stejný problém – tváří se, že to jde převést, text jde i vybrat ale výsledek je vše možné, jenom ne text.
    Ať sežeru elfa i s chlupama!!! ljirkovsky.wordpress.com stativ.tk
    21.2.2011 11:19 Ivan
    Rozbalit Rozbalit vše Re: PDF na text
    Nastroj na konverzi PDF do textu(nebo do .ps) je i acrobat reader. Nevim jak je na tom aktualni verze, ale ty predchozi mely command line option pro konverzi na .txt.
    21.2.2011 15:04 chrono
    Rozbalit Rozbalit vše Re: PDF na text
    Pri takto "chránených" súboroch to nijako nepomôže.
    21.2.2011 16:01 eth4rendil | skóre: 13
    Rozbalit Rozbalit vše Re: PDF na text
    Skúšal som to na win Adobe Reader 9.1 uložiť ako text a funguje to normálne - korektne mi uložilo znaky. Na laptope mám nainštalovanú staršiu verziu adobe a tam to uložilo nesprávne znaky. Na debiana som dal Adobe Acrobat Reader: 9.4.1-0.1. Ten ale zrejme nevie bežať bez GUI resp. konvertovať do TXT z príkozového riadku...

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.