abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 04:44 | Nová verze

    Multimediální server a user space API PipeWire (Wikipedie) poskytující PulseAudio, JACK, ALSA a GStreamer rozhraní byl vydán ve verzi 1.6.0 (Bluesky). Přehled novinek na GitLabu.

    Ladislav Hagara | Komentářů: 0
    dnes 01:11 | Nová verze

    UBports, nadace a komunita kolem Ubuntu pro telefony a tablety Ubuntu Touch, vydala Ubuntu Touch 24.04-1.2 a 20.04 OTA-12.

    Ladislav Hagara | Komentářů: 0
    včera 18:00 | Nová verze

    Byla vydána (Mastodon, 𝕏) nová stabilní verze 2.0 otevřeného operačního systému pro chytré hodinky AsteroidOS (Wikipedie). Přehled novinek v oznámení o vydání a na YouTube.

    Ladislav Hagara | Komentářů: 1
    včera 16:00 | Zajímavý software

    WoWee je open-source klient pro MMORPG hru World of Warcraft, kompatibilní se základní verzí a rozšířeními The Burning Crusade a Wrath of the Lich King. Klient je napsaný v C++ a využívá vlastní OpenGL renderer, pro provoz vyžaduje modely, grafiku, hudbu, zvuky a další assety z originální kopie hry od Blizzardu. Zdrojový kód je na GitHubu, dostupný pod licencí MIT.

    NUKE GAZA! 🎆 | Komentářů: 5
    včera 13:33 | IT novinky

    Byl představen ICT Supply Chain Security Toolbox, společný nezávazný rámec EU pro posuzování a snižování kybernetických bezpečnostních rizik v ICT dodavatelských řetězcích. Toolbox identifikuje možné rizikové scénáře ovlivňující ICT dodavatelské řetězce a na jejich podkladě nabízí koordinovaná doporučení k hodnocení a mitigaci rizik. Doporučení se dotýkají mj. podpory multi-vendor strategií a snižování závislostí na vysoce

    … více »
    Ladislav Hagara | Komentářů: 4
    včera 12:22 | Humor

    Nizozemský ministr obrany Gijs Tuinman prohlásil, že je možné stíhací letouny F-35 'jailbreaknout stejně jako iPhony', tedy upravit jejich software bez souhlasu USA nebo spolupráce s výrobcem Lockheed Martin. Tento výrok zazněl v rozhovoru na BNR Nieuwsradio, kde Tuinman naznačil, že evropské země by mohly potřebovat větší nezávislost na americké technologii. Jak by bylo jailbreak možné technicky provést pan ministr nijak nespecifikoval, nicméně je známé, že izraelské letectvo ve svých modifikovaných stíhačkách F-35 používá vlastní software.

    NUKE GAZA! 🎆 | Komentářů: 23
    včera 06:00 | Zajímavý článek

    Nové číslo časopisu Raspberry Pi zdarma ke čtení: Raspberry Pi Official Magazine 162 (pdf).

    Ladislav Hagara | Komentářů: 0
    včera 05:55 | IT novinky

    Sdružení CZ.NIC, správce české národní domény, zveřejnilo Domain Report za rok 2025 s klíčovými daty o vývoji domény .CZ. Na konci roku 2025 bylo v registru české národní domény celkem 1 515 860 s koncovkou .CZ. Průměrně bylo měsíčně zaregistrováno 16 222 domén, přičemž nejvíce registrací proběhlo v lednu (18 722) a nejméně pak v červnu (14 559). Podíl domén zabezpečených pomocí technologie DNSSEC se po několika letech stagnace výrazně

    … více »
    Ladislav Hagara | Komentářů: 9
    18.2. 18:33 | IT novinky

    Google představil telefon Pixel 10a. S funkci Satelitní SOS, která vás spojí se záchrannými složkami i v místech bez signálu Wi-Fi nebo mobilní sítě. Cena telefonu je od 13 290 Kč.

    Ladislav Hagara | Komentářů: 10
    18.2. 16:22 | Komunita

    Byl publikován přehled dění a novinek z vývoje Asahi Linuxu, tj. Linuxu pro Apple Silicon. Fedora 43 Asahi Remix s KDE Plasma už funguje na M3. Zatím ale bez GPU akcelerace. Vývojáře lze podpořit na Open Collective a GitHub Sponsors.

    Ladislav Hagara | Komentářů: 0
    Které desktopové prostředí na Linuxu používáte?
     (18%)
     (6%)
     (0%)
     (11%)
     (27%)
     (3%)
     (5%)
     (2%)
     (12%)
     (26%)
    Celkem 911 hlasů
     Komentářů: 25, poslední 3.2. 19:50
    Rozcestník

    Dotaz: PDF na text

    18.2.2011 09:31 eth4rendil | skóre: 13
    PDF na text
    Přečteno: 667×
    Dobrý deň,

    chcel by som Vás poprosiť o pomoc s nasledujúcou vecou.

    Snažím sa o konverziu zaheslovaného PDFka do txt:
    # file 36789_00_1398_2011-02-16.pdf
    36789_00_1398_2011-02-16.pdf: PDF document, version 1.3
    
    skúsil som to cez:
    pdftotext - Portable Document Format (PDF)to text converter (version 3.00)
    #pdftotext 36789_00_1398_2011-02-16.pdf -upw heslo
    
    toto mi vrati vysledok, ktory vyzera asi takto:
    BZOYTVL^Pi]Vs rpP^ )0)0/*-./0 ?PYL 8FC 7o^_X (,%’)%)’(( <54@ D=/) ((’’ ’’’’ ’’)0 )0/* -./0 5<6

    skúsil som to s druhým nezaheslovaným PDF:
    readme.pdf: PDF document, version 1.4
    a tam mi to skonvertovalo úplne normálne.

    Taktiež som to skúsil cez perl CAM::PDF
    #!/usr/bin/perl
    
    use CAM::PDF;
    use CAM::PDF::PageText;
    
    $filename = "pdf/36789_00_1398_2011-02-16.pdf";
    #$filename = "pdf/readme.pdf";
    
    my $doc = CAM::PDF->new($filename,q{},q{}, 1) || die "$CAM::PDF::errstr\n";
    #my $doc = CAM::PDF->new($filename) || die "$CAM::PDF::errstr\n";
    
    for my $pagenum (1 .. $doc->numPages()) {
       my $text = $doc->getPageText($pagenum);
       print $text;
    }
    
    ale tu sa ma dookola pýta na heslo a nerobí nič.

    Používam Debian Squeeze.

    Máte niekto skúsenosti s konvertovaním PDFka to textu.

    Ďakujem

    Odpovědi

    18.2.2011 09:35 Jindrich
    Rozbalit Rozbalit vše Re: PDF na text
    Poohlédněte se po utilitě pdfcrack.
    18.2.2011 10:18 eth4rendil | skóre: 13
    Rozbalit Rozbalit vše Re: PDF na text
    ďakujem za pripevok, ale pdfcrack sa snaži iba zistiť heslo pdfka. Heslo viem, ja sa to snažim to PDFko konvertovať do textu
    18.2.2011 10:27 Jindrich
    Rozbalit Rozbalit vše Re: PDF na text
    Ještě je nějaká online služba, která heslo ze souboru odebere (myslel jsem, že to umí i pdfcrack...), pak není problém zkonvertovat výsledný soubor, kde to heslo už není...
    18.2.2011 11:36 eth4rendil | skóre: 13
    Rozbalit Rozbalit vše Re: PDF na text
    no heslo som odobral takto: qpdf --password=heslo --decrypt in.pdf out.pdf

    vystup je vo formate PDF document, version 1.3.

    ale teraz sa mi zase vobec nedari to skonvertovat na text..
    18.2.2011 12:36 NN
    Rozbalit Rozbalit vše Re: PDF na text
    poppler-utils (pdftotext)

    NN
    18.2.2011 13:23 eth4rendil | skóre: 13
    Rozbalit Rozbalit vše Re: PDF na text
    ďakujem za radu, ale v prvom príspevku som spomínal pdftotext. Výsledok z toho vyzerá asi takto:

    BZOYTVL^Pi]Vs rpP^ )0)0/*-./0 ?PYL 8FC 7o^_X (,%’)%)’(( <54@ D=/) ((’’ ’’’’ ’’)0 )0/* -./0 5<6 DH<9E! E4ECD=5I
    Chytrex avatar 18.2.2011 15:14 Chytrex | skóre: 30 | Bohumín
    Rozbalit Rozbalit vše Re: PDF na text
    A jsi si jist že ten text je opavdu text v tom pdf? Může to být text vložený jako obrázek a prostě to nepřevedeš.. možná tak OCRkem.. Zkusil bych v kpdf (nebo v jiném pdf prohlížeči) vypnout DRM a zkusit zkopírovat kus textu zda to bude textové:)
    Hrdý člen KERNEL ULTRAS .:. define QUESTION ((bb) || !(bb)) .:. Odmítám vaši realitu a nahrazuji ji svou vlastní..
    18.2.2011 17:50 eth4rendil | skóre: 13
    Rozbalit Rozbalit vše Re: PDF na text
    ano viem to z určitostou potvrdiť. pomocou tejto služby som to pdfko zkonvertoval to txt http://www.convertpdftotext.net/ okrem toho ked ho otvorím vo windowse tak ctrl + c text môžem skopírovať a vložiť do textového editoru
    20.2.2011 16:40 eth4rendil | skóre: 13
    Rozbalit Rozbalit vše Re: PDF na text
    hmm zistil som jednu zaujimavu vec: ono ten nezmyselny text, ktorý mi exportuje pdftotxt vlastne dáva zmysel
    napr: 
    $ je -
    B je P
    Z je o
    O je d
    
    teda tento string:
    BZOYTVL^Pi]Vs rpP^
    je vlastne
    Podnikatelsky ucet
    Nedáva to niekomu zmysel čo to môže byť a ako to najjednoduchšie preložiť?

    Ďakujem
    20.2.2011 18:04 chrono
    Rozbalit Rozbalit vše Re: PDF na text
    S týmto som sa pred pár rokmi stretol pri pdf súboroch s elektronickou verziou jedného časopisu. Používali to ako ochranu a fungovalo im to tak, že tam používali špeciálne písmo, ktoré malo poprehadzované znaky (a zodpovedajúco bol upravený text).
    20.2.2011 22:33 eth4rendil | skóre: 13
    Rozbalit Rozbalit vše Re: PDF na text
    Myslím, že to môže byť neaká forma ochrany. Napr. teraz keď som z druhého počítača skopíroval vo win Adobe Readeri cez Ctrl + C a vložil to do notepadu dostal som presne ten istý zlý výsledok ako v linuxe. Vám sa to nakoniec ako podrailo vyriešiť?
    stativ avatar 21.2.2011 08:28 stativ | skóre: 54 | blog: SlaNé roury
    Rozbalit Rozbalit vše Re: PDF na text
    Nedáva to niekomu zmysel čo to môže byť a ako to najjednoduchšie preložiť?

    Ďakujem
    Smysl mi to sice nedává, ale jestli je to opravdu tak, použij tr pro nahrazení písmenek za správná.
    lukas@black-dragon:~> echo "BZOYTVL^Pi]Vs rpP^" > test
    lukas@black-dragon:~> tr "BZOYTVL^Pi]Vsrp" "Podnikatelskyuc" < test 
    Podnikatelsky ucet
    
    Ať sežeru elfa i s chlupama!!! ljirkovsky.wordpress.com stativ.tk
    21.2.2011 09:33 eth4rendil | skóre: 13
    Rozbalit Rozbalit vše Re: PDF na text
    ďakujem za radu. Takto som to už skúšal ale cez perl $out =~ tr/\$BZOYTVL^Pi]Vsrp)0\/*\-\.?L8FC7o\_X(,%<54@D=6H9EU;\\/-Podnikatelskyuc298367MaEurdaum15.IBANSKCWFTjHr/;

    je to vcelku časovo náročné, ale hlavný problém je vtom, že sa jedná o výpisy z banky, ktoré chodia denné a ked som vytvoril podľa jedneho dna vzor na prevod znakov tak na PDFku z druhého dňa to už "nepasovalo" a znova boli poprehadzované znaky...
    21.2.2011 15:05 chrono
    Rozbalit Rozbalit vše Re: PDF na text
    Pdf súbory nie sú zrovna určené na počítačové spracovávanie. Tá banka neposkytuje tie údaje aj v inej, použiteľnejšej forme (často sa to dá stiahnuť ako csv alebo xml súbor).
    stativ avatar 18.2.2011 15:32 stativ | skóre: 54 | blog: SlaNé roury
    Rozbalit Rozbalit vše Re: PDF na text
    Hmm, mám úplně stejný problém s tímto PDF. Chtěl bych to přeložit a ten samý problém se týká i google translate a adobe reader.
    Ať sežeru elfa i s chlupama!!! ljirkovsky.wordpress.com stativ.tk
    stativ avatar 18.2.2011 15:34 stativ | skóre: 54 | blog: SlaNé roury
    Rozbalit Rozbalit vše Re: PDF na text
    Podle mě je ten text vykřivkovaný.
    Ať sežeru elfa i s chlupama!!! ljirkovsky.wordpress.com stativ.tk
    18.2.2011 15:40 helb
    Rozbalit Rozbalit vše Re: PDF na text
    Příloha:
    Je to ještě zvrácenější, jednotlivá písmenka jsou tam jako bitmapy (viz přílohu). Tedy alespoň podle Adobe...
    stativ avatar 18.2.2011 16:38 stativ | skóre: 54 | blog: SlaNé roury
    Rozbalit Rozbalit vše Re: PDF na text
    No tak to tedy fuj. Díky za ozkoušení. Předpokládám, že tazatel má naprosto stejný problém – tváří se, že to jde převést, text jde i vybrat ale výsledek je vše možné, jenom ne text.
    Ať sežeru elfa i s chlupama!!! ljirkovsky.wordpress.com stativ.tk
    21.2.2011 11:19 Ivan
    Rozbalit Rozbalit vše Re: PDF na text
    Nastroj na konverzi PDF do textu(nebo do .ps) je i acrobat reader. Nevim jak je na tom aktualni verze, ale ty predchozi mely command line option pro konverzi na .txt.
    21.2.2011 15:04 chrono
    Rozbalit Rozbalit vše Re: PDF na text
    Pri takto "chránených" súboroch to nijako nepomôže.
    21.2.2011 16:01 eth4rendil | skóre: 13
    Rozbalit Rozbalit vše Re: PDF na text
    Skúšal som to na win Adobe Reader 9.1 uložiť ako text a funguje to normálne - korektne mi uložilo znaky. Na laptope mám nainštalovanú staršiu verziu adobe a tam to uložilo nesprávne znaky. Na debiana som dal Adobe Acrobat Reader: 9.4.1-0.1. Ten ale zrejme nevie bežať bez GUI resp. konvertovať do TXT z príkozového riadku...

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.