abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 17:22 | Nová verze

    Raspberry Pi Connect, tj. oficiální služba Raspberry Pi pro vzdálený přístup k jednodeskovým počítačům Raspberry Pi z webového prohlížeče, byla vydána v nové verzi 2.5. Nejedná se už o beta verzi.

    Ladislav Hagara | Komentářů: 0
    dnes 15:22 | Komunita

    Google zveřejnil seznam 1272 projektů (vývojářů) od 185 organizací přijatých do letošního, již jednadvacátého, Google Summer of Code. Plánovaným vylepšením v grafických a multimediálních aplikacích se věnuje článek na Libre Arts.

    Ladislav Hagara | Komentářů: 0
    včera 19:22 | Nová verze

    Byla vydána (𝕏) dubnová aktualizace aneb nová verze 1.100 editoru zdrojových kódů Visual Studio Code (Wikipedie). Přehled novinek i s náhledy a videi v poznámkách k vydání. Ve verzi 1.100 vyjde také VSCodium, tj. komunitní sestavení Visual Studia Code bez telemetrie a licenčních podmínek Microsoftu.

    Ladislav Hagara | Komentářů: 0
    včera 18:00 | Nová verze

    Open source platforma Home Assistant (Demo, GitHub, Wikipedie) pro monitorování a řízení inteligentní domácnosti byla vydána v nové verzi 2025.5.

    Ladislav Hagara | Komentářů: 0
    včera 01:22 | Nová verze Ladislav Hagara | Komentářů: 0
    včera 00:55 | Zajímavý projekt

    PyXL je koncept procesora, ktorý dokáže priamo spúštat Python kód bez nutnosti prekladu ci Micropythonu. Podľa testov autora je pri 100 MHz približne 30x rýchlejší pri riadeni GPIO nez Micropython na Pyboard taktovanej na 168 MHz.

    vlk | Komentářů: 0
    7.5. 19:44 | Nová verze

    Grafana (Wikipedie), tj. open source nástroj pro vizualizaci různých metrik a s ní související dotazování, upozorňování a lepší porozumění, byla vydána ve verzi 12.0. Přehled novinek v aktualizované dokumentaci.

    Ladislav Hagara | Komentářů: 0
    7.5. 17:33 | Nová verze

    Raspberry Pi OS, oficiální operační systém pro Raspberry Pi, byl vydán v nové verzi 2025-05-06. Přehled novinek v příspěvku na blogu Raspberry Pi a poznámkách k vydání. Pravděpodobně se jedná o poslední verzi postavenou na Debianu 12 Bookworm. Následující verze by již měla být postavena na Debianu 13 Trixie.

    Ladislav Hagara | Komentářů: 0
    7.5. 05:33 | Komunita

    Richard Stallman dnes v Liberci přednáší o svobodném softwaru a svobodě v digitální společnosti. Od 16:30 v aule budovy G na Technické univerzitě v Liberci. V anglickém jazyce s automaticky generovanými českými titulky. Vstup je zdarma i pro širokou veřejnost.

    Ladislav Hagara | Komentářů: 17
    7.5. 03:55 | Komunita

    sudo-rs, tj. sudo a su přepsáné do programovacího jazyka Rust, nahradí v Ubuntu 25.10 klasické sudo. V plánu je také přechod od klasických coreutils k uutils coreutils napsaných v Rustu.

    Ladislav Hagara | Komentářů: 0
    Jaký filesystém primárně používáte?
     (57%)
     (1%)
     (8%)
     (22%)
     (4%)
     (2%)
     (2%)
     (1%)
     (1%)
     (3%)
    Celkem 565 hlasů
     Komentářů: 26, poslední včera 09:58
    Rozcestník

    Dotaz: PDF na text

    18.2.2011 09:31 eth4rendil | skóre: 13
    PDF na text
    Přečteno: 620×
    Dobrý deň,

    chcel by som Vás poprosiť o pomoc s nasledujúcou vecou.

    Snažím sa o konverziu zaheslovaného PDFka do txt:
    # file 36789_00_1398_2011-02-16.pdf
    36789_00_1398_2011-02-16.pdf: PDF document, version 1.3
    
    skúsil som to cez:
    pdftotext - Portable Document Format (PDF)to text converter (version 3.00)
    #pdftotext 36789_00_1398_2011-02-16.pdf -upw heslo
    
    toto mi vrati vysledok, ktory vyzera asi takto:
    BZOYTVL^Pi]Vs rpP^ )0)0/*-./0 ?PYL 8FC 7o^_X (,%’)%)’(( <54@ D=/) ((’’ ’’’’ ’’)0 )0/* -./0 5<6

    skúsil som to s druhým nezaheslovaným PDF:
    readme.pdf: PDF document, version 1.4
    a tam mi to skonvertovalo úplne normálne.

    Taktiež som to skúsil cez perl CAM::PDF
    #!/usr/bin/perl
    
    use CAM::PDF;
    use CAM::PDF::PageText;
    
    $filename = "pdf/36789_00_1398_2011-02-16.pdf";
    #$filename = "pdf/readme.pdf";
    
    my $doc = CAM::PDF->new($filename,q{},q{}, 1) || die "$CAM::PDF::errstr\n";
    #my $doc = CAM::PDF->new($filename) || die "$CAM::PDF::errstr\n";
    
    for my $pagenum (1 .. $doc->numPages()) {
       my $text = $doc->getPageText($pagenum);
       print $text;
    }
    
    ale tu sa ma dookola pýta na heslo a nerobí nič.

    Používam Debian Squeeze.

    Máte niekto skúsenosti s konvertovaním PDFka to textu.

    Ďakujem

    Odpovědi

    18.2.2011 09:35 Jindrich
    Rozbalit Rozbalit vše Re: PDF na text
    Poohlédněte se po utilitě pdfcrack.
    18.2.2011 10:18 eth4rendil | skóre: 13
    Rozbalit Rozbalit vše Re: PDF na text
    ďakujem za pripevok, ale pdfcrack sa snaži iba zistiť heslo pdfka. Heslo viem, ja sa to snažim to PDFko konvertovať do textu
    18.2.2011 10:27 Jindrich
    Rozbalit Rozbalit vše Re: PDF na text
    Ještě je nějaká online služba, která heslo ze souboru odebere (myslel jsem, že to umí i pdfcrack...), pak není problém zkonvertovat výsledný soubor, kde to heslo už není...
    18.2.2011 11:36 eth4rendil | skóre: 13
    Rozbalit Rozbalit vše Re: PDF na text
    no heslo som odobral takto: qpdf --password=heslo --decrypt in.pdf out.pdf

    vystup je vo formate PDF document, version 1.3.

    ale teraz sa mi zase vobec nedari to skonvertovat na text..
    18.2.2011 12:36 NN
    Rozbalit Rozbalit vše Re: PDF na text
    poppler-utils (pdftotext)

    NN
    18.2.2011 13:23 eth4rendil | skóre: 13
    Rozbalit Rozbalit vše Re: PDF na text
    ďakujem za radu, ale v prvom príspevku som spomínal pdftotext. Výsledok z toho vyzerá asi takto:

    BZOYTVL^Pi]Vs rpP^ )0)0/*-./0 ?PYL 8FC 7o^_X (,%’)%)’(( <54@ D=/) ((’’ ’’’’ ’’)0 )0/* -./0 5<6 DH<9E! E4ECD=5I
    Chytrex avatar 18.2.2011 15:14 Chytrex | skóre: 30 | Bohumín
    Rozbalit Rozbalit vše Re: PDF na text
    A jsi si jist že ten text je opavdu text v tom pdf? Může to být text vložený jako obrázek a prostě to nepřevedeš.. možná tak OCRkem.. Zkusil bych v kpdf (nebo v jiném pdf prohlížeči) vypnout DRM a zkusit zkopírovat kus textu zda to bude textové:)
    Hrdý člen KERNEL ULTRAS .:. define QUESTION ((bb) || !(bb)) .:. Odmítám vaši realitu a nahrazuji ji svou vlastní..
    18.2.2011 17:50 eth4rendil | skóre: 13
    Rozbalit Rozbalit vše Re: PDF na text
    ano viem to z určitostou potvrdiť. pomocou tejto služby som to pdfko zkonvertoval to txt http://www.convertpdftotext.net/ okrem toho ked ho otvorím vo windowse tak ctrl + c text môžem skopírovať a vložiť do textového editoru
    20.2.2011 16:40 eth4rendil | skóre: 13
    Rozbalit Rozbalit vše Re: PDF na text
    hmm zistil som jednu zaujimavu vec: ono ten nezmyselny text, ktorý mi exportuje pdftotxt vlastne dáva zmysel
    napr: 
    $ je -
    B je P
    Z je o
    O je d
    
    teda tento string:
    BZOYTVL^Pi]Vs rpP^
    je vlastne
    Podnikatelsky ucet
    Nedáva to niekomu zmysel čo to môže byť a ako to najjednoduchšie preložiť?

    Ďakujem
    20.2.2011 18:04 chrono
    Rozbalit Rozbalit vše Re: PDF na text
    S týmto som sa pred pár rokmi stretol pri pdf súboroch s elektronickou verziou jedného časopisu. Používali to ako ochranu a fungovalo im to tak, že tam používali špeciálne písmo, ktoré malo poprehadzované znaky (a zodpovedajúco bol upravený text).
    20.2.2011 22:33 eth4rendil | skóre: 13
    Rozbalit Rozbalit vše Re: PDF na text
    Myslím, že to môže byť neaká forma ochrany. Napr. teraz keď som z druhého počítača skopíroval vo win Adobe Readeri cez Ctrl + C a vložil to do notepadu dostal som presne ten istý zlý výsledok ako v linuxe. Vám sa to nakoniec ako podrailo vyriešiť?
    stativ avatar 21.2.2011 08:28 stativ | skóre: 54 | blog: SlaNé roury
    Rozbalit Rozbalit vše Re: PDF na text
    Nedáva to niekomu zmysel čo to môže byť a ako to najjednoduchšie preložiť?

    Ďakujem
    Smysl mi to sice nedává, ale jestli je to opravdu tak, použij tr pro nahrazení písmenek za správná.
    lukas@black-dragon:~> echo "BZOYTVL^Pi]Vs rpP^" > test
    lukas@black-dragon:~> tr "BZOYTVL^Pi]Vsrp" "Podnikatelskyuc" < test 
    Podnikatelsky ucet
    
    Ať sežeru elfa i s chlupama!!! ljirkovsky.wordpress.com stativ.tk
    21.2.2011 09:33 eth4rendil | skóre: 13
    Rozbalit Rozbalit vše Re: PDF na text
    ďakujem za radu. Takto som to už skúšal ale cez perl $out =~ tr/\$BZOYTVL^Pi]Vsrp)0\/*\-\.?L8FC7o\_X(,%<54@D=6H9EU;\\/-Podnikatelskyuc298367MaEurdaum15.IBANSKCWFTjHr/;

    je to vcelku časovo náročné, ale hlavný problém je vtom, že sa jedná o výpisy z banky, ktoré chodia denné a ked som vytvoril podľa jedneho dna vzor na prevod znakov tak na PDFku z druhého dňa to už "nepasovalo" a znova boli poprehadzované znaky...
    21.2.2011 15:05 chrono
    Rozbalit Rozbalit vše Re: PDF na text
    Pdf súbory nie sú zrovna určené na počítačové spracovávanie. Tá banka neposkytuje tie údaje aj v inej, použiteľnejšej forme (často sa to dá stiahnuť ako csv alebo xml súbor).
    stativ avatar 18.2.2011 15:32 stativ | skóre: 54 | blog: SlaNé roury
    Rozbalit Rozbalit vše Re: PDF na text
    Hmm, mám úplně stejný problém s tímto PDF. Chtěl bych to přeložit a ten samý problém se týká i google translate a adobe reader.
    Ať sežeru elfa i s chlupama!!! ljirkovsky.wordpress.com stativ.tk
    stativ avatar 18.2.2011 15:34 stativ | skóre: 54 | blog: SlaNé roury
    Rozbalit Rozbalit vše Re: PDF na text
    Podle mě je ten text vykřivkovaný.
    Ať sežeru elfa i s chlupama!!! ljirkovsky.wordpress.com stativ.tk
    18.2.2011 15:40 helb
    Rozbalit Rozbalit vše Re: PDF na text
    Příloha:
    Je to ještě zvrácenější, jednotlivá písmenka jsou tam jako bitmapy (viz přílohu). Tedy alespoň podle Adobe...
    stativ avatar 18.2.2011 16:38 stativ | skóre: 54 | blog: SlaNé roury
    Rozbalit Rozbalit vše Re: PDF na text
    No tak to tedy fuj. Díky za ozkoušení. Předpokládám, že tazatel má naprosto stejný problém – tváří se, že to jde převést, text jde i vybrat ale výsledek je vše možné, jenom ne text.
    Ať sežeru elfa i s chlupama!!! ljirkovsky.wordpress.com stativ.tk
    21.2.2011 11:19 Ivan
    Rozbalit Rozbalit vše Re: PDF na text
    Nastroj na konverzi PDF do textu(nebo do .ps) je i acrobat reader. Nevim jak je na tom aktualni verze, ale ty predchozi mely command line option pro konverzi na .txt.
    21.2.2011 15:04 chrono
    Rozbalit Rozbalit vše Re: PDF na text
    Pri takto "chránených" súboroch to nijako nepomôže.
    21.2.2011 16:01 eth4rendil | skóre: 13
    Rozbalit Rozbalit vše Re: PDF na text
    Skúšal som to na win Adobe Reader 9.1 uložiť ako text a funguje to normálne - korektne mi uložilo znaky. Na laptope mám nainštalovanú staršiu verziu adobe a tam to uložilo nesprávne znaky. Na debiana som dal Adobe Acrobat Reader: 9.4.1-0.1. Ten ale zrejme nevie bežať bez GUI resp. konvertovať do TXT z príkozového riadku...

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.