abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 17:00 | Nová verze

    AlmaLinux OS byl vydán ve verzích 9.8 s kódovým jménem Olive Jaguar a 10.2 s kódovým jménem Lavender Lion. Podrobnosti v poznámkách k vydání (9.8 a 10.2). Opraveny byly zranitelnosti Copy Fail (CVE-2026-31431), Dirty FRAG, Fragnesia (CVE-2026-46300), nginx Rift (CVE-2026-42945) a SSH Keysign Pwn (CVE-2026-46333).

    Ladislav Hagara | Komentářů: 0
    dnes 15:22 | IT novinky

    Seznam.cz vykázal za rok 2025 tržby v celkové hodnotě 6,454 miliardy korun. Oproti roku 2024 nárůst o 3,68 %. Zisk před zdaněním oproti předcházejícímu roku poklesl, a to o 11,21 % na 1,330 miliardy korun. Vlastní velké jazykové modely SeLLMa najdou dnes uživatelé téměř na všech seznamáckých službách. Na všechny obsahové služby byla zavedena technologie text-to-speech, díky níž si mohou uživatelé přehrát články v audio verzi namluvené

    … více »
    Ladislav Hagara | Komentářů: 1
    dnes 13:22 | IT novinky

    Vláda představila strategické digitalizační projekty. Roadmapa zahrnuje celkem 55 projektů napříč státní správou, z toho 22 prioritních projektů vycházejících přímo z programového prohlášení vlády a 33 projektů založených na platné legislativě. Portfolio pokrývá oblasti financí, zdravotnictví, digitální identity, dat, registrů, dopravy, krizového řízení, sociálních agend i kybernetické bezpečnosti.

    Ladislav Hagara | Komentářů: 0
    dnes 00:22 | Komunita

    Vyjádřeni Software Freedom Conservancy (SFC) k porušování licence AGPLv3 společností Bambu Lab v jejich softwaru Bambu Studio pro 3D tisk. Bambu Studio vychází z PrusaSliceru. Ten zase z Slic3ru. Spuštěn byl projekt baltobu, který kombinuje několik strategií pro řešení problému. SFC zastřeší vývoj svobodné náhrady proprietární knihovny libbambu_networking pomocí reverzního inženýrství a reimplementace, forku OrcaSliceru pro Bambu Lab tiskárny od Paweła Jarczaka a forku celého Bambu Studia pod názvem Viscose.

    Ladislav Hagara | Komentářů: 3
    včera 22:44 | Nová verze

    Správce souborů GNOME Commander (Wikipedie) byl přepsán do Rustu a vydán v nové verzi 2.0.0.

    Ladislav Hagara | Komentářů: 0
    včera 19:44 | Nová verze

    Sway (Wikipedie), dlaždicový (tiling) správce oken pro Wayland kompatibilní s i3, byl vydán ve verzi 1.12. Do vývoje se zapojilo 50 vývojářů. Přehled novinek na GitHubu. Sway 1.12 závisí na wlroots 0.20.0.

    Ladislav Hagara | Komentářů: 0
    včera 16:33 | IT novinky

    Papež Lev XIV. ve své první encyklice Magnifica Humanitas (Skvělé lidství), která se věnuje umělé inteligenci (AI), varoval před dezinformacemi, které AI manipulací s obsahem vytváří. Moc mají podle něj sociální sítě ovládané hrstkou soukromníků. Upozornil také roli digitálních platforem v obchodování s lidmi, které podle něj musí být uznáno jako současná forma otroctví. Papež se také poprvé omluvil za roli, kterou Vatikán sehrál při legitimizaci otroctví, a za to, že jej po staletí neodsoudil.

    Ladislav Hagara | Komentářů: 0
    včera 16:11 | IT novinky

    Český telekomunikační úřad zveřejnil Výroční zprávu za rok 2025 (pdf), která shrnuje jeho hlavní aktivity v oblasti regulace elektronických komunikací, poštovních služeb, digitálních služeb a přípravy na dohled nad umělou inteligencí. Součástí zprávy jsou také data o vývoji trhu, včetně pokračujícího růstu spotřeby mobilních dat a rozšiřování sítí nové generace. Celkový objem přenesených mobilních dat dosáhl v roce 2025 přibližně

    … více »
    Ladislav Hagara | Komentářů: 0
    včera 16:00 | Nová verze

    Tým sdružení CZ.NIC vyvíjející routovacího daemona BIRD oznámil vydání nových verzí 3.3.0 a 2.19.0. Ty přinášejí podporu pro EVPN/VXLAN a automatizaci BGP na základě router advertisementů. Více informací je k dispozici v archivu uživatelského mailing-listu.

    VSladek | Komentářů: 0
    24.5. 04:33 | Nová verze

    Open source software pro úpravu digitálních fotografií LightZone (Wikipedie) byl vydán v nové verzi 5.0.0. LightZone je dnes k dispozici pod licencí BSD. Původně se jednalo o proprietární software vyvíjený společností Light Crafts. Ta v prosinci 2012 souhlasila s uvolněním zdrojových kódů jako open source [Wayback Machine].

    Ladislav Hagara | Komentářů: 0
    Které desktopové prostředí na Linuxu používáte?
     (12%)
     (8%)
     (2%)
     (14%)
     (31%)
     (4%)
     (7%)
     (3%)
     (16%)
     (26%)
    Celkem 1722 hlasů
     Komentářů: 30, poslední 3.4. 20:20
    Rozcestník

    Dotaz: PDF na text

    18.2.2011 09:31 eth4rendil | skóre: 13
    PDF na text
    Přečteno: 674×
    Dobrý deň,

    chcel by som Vás poprosiť o pomoc s nasledujúcou vecou.

    Snažím sa o konverziu zaheslovaného PDFka do txt:
    # file 36789_00_1398_2011-02-16.pdf
    36789_00_1398_2011-02-16.pdf: PDF document, version 1.3
    
    skúsil som to cez:
    pdftotext - Portable Document Format (PDF)to text converter (version 3.00)
    #pdftotext 36789_00_1398_2011-02-16.pdf -upw heslo
    
    toto mi vrati vysledok, ktory vyzera asi takto:
    BZOYTVL^Pi]Vs rpP^ )0)0/*-./0 ?PYL 8FC 7o^_X (,%’)%)’(( <54@ D=/) ((’’ ’’’’ ’’)0 )0/* -./0 5<6

    skúsil som to s druhým nezaheslovaným PDF:
    readme.pdf: PDF document, version 1.4
    a tam mi to skonvertovalo úplne normálne.

    Taktiež som to skúsil cez perl CAM::PDF
    #!/usr/bin/perl
    
    use CAM::PDF;
    use CAM::PDF::PageText;
    
    $filename = "pdf/36789_00_1398_2011-02-16.pdf";
    #$filename = "pdf/readme.pdf";
    
    my $doc = CAM::PDF->new($filename,q{},q{}, 1) || die "$CAM::PDF::errstr\n";
    #my $doc = CAM::PDF->new($filename) || die "$CAM::PDF::errstr\n";
    
    for my $pagenum (1 .. $doc->numPages()) {
       my $text = $doc->getPageText($pagenum);
       print $text;
    }
    
    ale tu sa ma dookola pýta na heslo a nerobí nič.

    Používam Debian Squeeze.

    Máte niekto skúsenosti s konvertovaním PDFka to textu.

    Ďakujem

    Odpovědi

    18.2.2011 09:35 Jindrich
    Rozbalit Rozbalit vše Re: PDF na text
    Poohlédněte se po utilitě pdfcrack.
    18.2.2011 10:18 eth4rendil | skóre: 13
    Rozbalit Rozbalit vše Re: PDF na text
    ďakujem za pripevok, ale pdfcrack sa snaži iba zistiť heslo pdfka. Heslo viem, ja sa to snažim to PDFko konvertovať do textu
    18.2.2011 10:27 Jindrich
    Rozbalit Rozbalit vše Re: PDF na text
    Ještě je nějaká online služba, která heslo ze souboru odebere (myslel jsem, že to umí i pdfcrack...), pak není problém zkonvertovat výsledný soubor, kde to heslo už není...
    18.2.2011 11:36 eth4rendil | skóre: 13
    Rozbalit Rozbalit vše Re: PDF na text
    no heslo som odobral takto: qpdf --password=heslo --decrypt in.pdf out.pdf

    vystup je vo formate PDF document, version 1.3.

    ale teraz sa mi zase vobec nedari to skonvertovat na text..
    18.2.2011 12:36 NN
    Rozbalit Rozbalit vše Re: PDF na text
    poppler-utils (pdftotext)

    NN
    18.2.2011 13:23 eth4rendil | skóre: 13
    Rozbalit Rozbalit vše Re: PDF na text
    ďakujem za radu, ale v prvom príspevku som spomínal pdftotext. Výsledok z toho vyzerá asi takto:

    BZOYTVL^Pi]Vs rpP^ )0)0/*-./0 ?PYL 8FC 7o^_X (,%’)%)’(( <54@ D=/) ((’’ ’’’’ ’’)0 )0/* -./0 5<6 DH<9E! E4ECD=5I
    Chytrex avatar 18.2.2011 15:14 Chytrex | skóre: 30 | Bohumín
    Rozbalit Rozbalit vše Re: PDF na text
    A jsi si jist že ten text je opavdu text v tom pdf? Může to být text vložený jako obrázek a prostě to nepřevedeš.. možná tak OCRkem.. Zkusil bych v kpdf (nebo v jiném pdf prohlížeči) vypnout DRM a zkusit zkopírovat kus textu zda to bude textové:)
    Hrdý člen KERNEL ULTRAS .:. define QUESTION ((bb) || !(bb)) .:. Odmítám vaši realitu a nahrazuji ji svou vlastní..
    18.2.2011 17:50 eth4rendil | skóre: 13
    Rozbalit Rozbalit vše Re: PDF na text
    ano viem to z určitostou potvrdiť. pomocou tejto služby som to pdfko zkonvertoval to txt http://www.convertpdftotext.net/ okrem toho ked ho otvorím vo windowse tak ctrl + c text môžem skopírovať a vložiť do textového editoru
    20.2.2011 16:40 eth4rendil | skóre: 13
    Rozbalit Rozbalit vše Re: PDF na text
    hmm zistil som jednu zaujimavu vec: ono ten nezmyselny text, ktorý mi exportuje pdftotxt vlastne dáva zmysel
    napr: 
    $ je -
    B je P
    Z je o
    O je d
    
    teda tento string:
    BZOYTVL^Pi]Vs rpP^
    je vlastne
    Podnikatelsky ucet
    Nedáva to niekomu zmysel čo to môže byť a ako to najjednoduchšie preložiť?

    Ďakujem
    20.2.2011 18:04 chrono
    Rozbalit Rozbalit vše Re: PDF na text
    S týmto som sa pred pár rokmi stretol pri pdf súboroch s elektronickou verziou jedného časopisu. Používali to ako ochranu a fungovalo im to tak, že tam používali špeciálne písmo, ktoré malo poprehadzované znaky (a zodpovedajúco bol upravený text).
    20.2.2011 22:33 eth4rendil | skóre: 13
    Rozbalit Rozbalit vše Re: PDF na text
    Myslím, že to môže byť neaká forma ochrany. Napr. teraz keď som z druhého počítača skopíroval vo win Adobe Readeri cez Ctrl + C a vložil to do notepadu dostal som presne ten istý zlý výsledok ako v linuxe. Vám sa to nakoniec ako podrailo vyriešiť?
    stativ avatar 21.2.2011 08:28 stativ | skóre: 54 | blog: SlaNé roury
    Rozbalit Rozbalit vše Re: PDF na text
    Nedáva to niekomu zmysel čo to môže byť a ako to najjednoduchšie preložiť?

    Ďakujem
    Smysl mi to sice nedává, ale jestli je to opravdu tak, použij tr pro nahrazení písmenek za správná.
    lukas@black-dragon:~> echo "BZOYTVL^Pi]Vs rpP^" > test
    lukas@black-dragon:~> tr "BZOYTVL^Pi]Vsrp" "Podnikatelskyuc" < test 
    Podnikatelsky ucet
    
    Ať sežeru elfa i s chlupama!!! ljirkovsky.wordpress.com stativ.tk
    21.2.2011 09:33 eth4rendil | skóre: 13
    Rozbalit Rozbalit vše Re: PDF na text
    ďakujem za radu. Takto som to už skúšal ale cez perl $out =~ tr/\$BZOYTVL^Pi]Vsrp)0\/*\-\.?L8FC7o\_X(,%<54@D=6H9EU;\\/-Podnikatelskyuc298367MaEurdaum15.IBANSKCWFTjHr/;

    je to vcelku časovo náročné, ale hlavný problém je vtom, že sa jedná o výpisy z banky, ktoré chodia denné a ked som vytvoril podľa jedneho dna vzor na prevod znakov tak na PDFku z druhého dňa to už "nepasovalo" a znova boli poprehadzované znaky...
    21.2.2011 15:05 chrono
    Rozbalit Rozbalit vše Re: PDF na text
    Pdf súbory nie sú zrovna určené na počítačové spracovávanie. Tá banka neposkytuje tie údaje aj v inej, použiteľnejšej forme (často sa to dá stiahnuť ako csv alebo xml súbor).
    stativ avatar 18.2.2011 15:32 stativ | skóre: 54 | blog: SlaNé roury
    Rozbalit Rozbalit vše Re: PDF na text
    Hmm, mám úplně stejný problém s tímto PDF. Chtěl bych to přeložit a ten samý problém se týká i google translate a adobe reader.
    Ať sežeru elfa i s chlupama!!! ljirkovsky.wordpress.com stativ.tk
    stativ avatar 18.2.2011 15:34 stativ | skóre: 54 | blog: SlaNé roury
    Rozbalit Rozbalit vše Re: PDF na text
    Podle mě je ten text vykřivkovaný.
    Ať sežeru elfa i s chlupama!!! ljirkovsky.wordpress.com stativ.tk
    18.2.2011 15:40 helb
    Rozbalit Rozbalit vše Re: PDF na text
    Příloha:
    Je to ještě zvrácenější, jednotlivá písmenka jsou tam jako bitmapy (viz přílohu). Tedy alespoň podle Adobe...
    stativ avatar 18.2.2011 16:38 stativ | skóre: 54 | blog: SlaNé roury
    Rozbalit Rozbalit vše Re: PDF na text
    No tak to tedy fuj. Díky za ozkoušení. Předpokládám, že tazatel má naprosto stejný problém – tváří se, že to jde převést, text jde i vybrat ale výsledek je vše možné, jenom ne text.
    Ať sežeru elfa i s chlupama!!! ljirkovsky.wordpress.com stativ.tk
    21.2.2011 11:19 Ivan
    Rozbalit Rozbalit vše Re: PDF na text
    Nastroj na konverzi PDF do textu(nebo do .ps) je i acrobat reader. Nevim jak je na tom aktualni verze, ale ty predchozi mely command line option pro konverzi na .txt.
    21.2.2011 15:04 chrono
    Rozbalit Rozbalit vše Re: PDF na text
    Pri takto "chránených" súboroch to nijako nepomôže.
    21.2.2011 16:01 eth4rendil | skóre: 13
    Rozbalit Rozbalit vše Re: PDF na text
    Skúšal som to na win Adobe Reader 9.1 uložiť ako text a funguje to normálne - korektne mi uložilo znaky. Na laptope mám nainštalovanú staršiu verziu adobe a tam to uložilo nesprávne znaky. Na debiana som dal Adobe Acrobat Reader: 9.4.1-0.1. Ten ale zrejme nevie bežať bez GUI resp. konvertovať do TXT z príkozového riadku...

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.