abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
eParkomat, startup z ČR, postoupil mezi finalisty evropského akcelerátoru ChallengeUp!
Robot na pivo mu otevřel dveře k opravdovému byznysu
Internet věcí: Propojený svět? Už se to blíží...
dnes 01:02 | Zajímavý článek

Minulý týden byly vydány verze 1.2.3 a 1.1.7 webového poštovního klienta Roundcube. V oznámení o vydání bylo zmíněno řešení bezpečnostního problému nalezeného společností RIPS a souvisejícího s voláním funkce mail() v PHP. Tento týden byly zveřejněny podrobnosti. Útočník mohl pomocí speciálně připraveného emailu spustit na serveru libovolný příkaz. Stejně, jak je popsáno v článku Exploit PHP’s mail() to get remote code execution z roku 2014.

Ladislav Hagara | Komentářů: 0
včera 16:00 | Nová verze

Byla vydána verze 0.98 svobodného nelineárního video editoru Pitivi. Z novinek lze zmínit například přizpůsobitelné klávesové zkratky. Videoukázka práce s nejnovější verzí Pitivi na YouTube.

Ladislav Hagara | Komentářů: 1
včera 15:00 | Zajímavý software

Stop motion je technika animace, při níž je reálný objekt mezi jednotlivými snímky ručně upravován a posouván o malé úseky, tak aby po spojení vyvolala animace dojem spojitosti. Jaký software lze pro stop motion použít na Linuxu? Článek na OMG! Ubuntu! představuje Heron Animation. Ten bohužel podporuje pouze webové kamery. Podpora digitálních zrcadlovek je začleněna například v programu qStopMotion.

Ladislav Hagara | Komentářů: 3
7.12. 21:21 | Nová verze Ladislav Hagara | Komentářů: 0
7.12. 11:44 | Zajímavý projekt

Na Indiegogo byla spuštěna kampaň na podporu herní mini konzole a multimediálního centra RetroEngine Sigma od Doyodo. Předobjednat ji lze již od 49 dolarů. Požadovaná částka 20 000 dolarů byla překonána již 6 krát. Majitelé mini konzole si budou moci zahrát hry pro Atari VCS 2600, Sega Genesis nebo NES. Předinstalováno bude multimediální centrum Kodi.

Ladislav Hagara | Komentářů: 2
7.12. 00:10 | Nová verze

Byla vydána verze 4.7 redakčního systému WordPress. Kódové označením Vaughan bylo vybráno na počest americké jazzové zpěvačky Sarah "Sassy" Vaughan. Z novinek lze zmínit například novou výchozí šablonu Twenty Seventeen, náhledy pdf souborů nebo WordPress REST API.

Ladislav Hagara | Komentářů: 8
6.12. 12:00 | Zajímavý projekt

Projekt Termbox umožňuje vyzkoušet si linuxové distribuce Ubuntu, Debian, Fedora, CentOS a Arch Linux ve webovém prohlížeči. Řešení je postaveno na projektu HyperContainer. Podrobnosti v často kladených dotazech (FAQ). Zdrojové kódy jsou k dispozici na GitHubu [reddit].

Ladislav Hagara | Komentářů: 27
6.12. 11:00 | Bezpečnostní upozornění

Byly zveřejněny informace o bezpečnostní chybě CVE-2016-8655 v Linuxu zneužitelné k lokální eskalaci práv. Chyba se dostala do linuxového jádra v srpnu 2011. V upstreamu byla opravena minulý týden [Hacker News].

Ladislav Hagara | Komentářů: 2
5.12. 22:00 | Komunita

Přibližně před měsícem bylo oznámeno, že linuxová distribuce SUSE Linux Enterprise Server (SLES) běží nově také Raspberry Pi 3 (dokumentace). Obraz verze 12 SP2 pro Raspberry Pi 3 je ke stažení zdarma. Pro registrované jsou po dobu jednoho roku zdarma také aktualizace. Dnes bylo oznámeno, že pro Raspberry Pi 3 je k dispozici také nové openSUSE Leap 42.2 (zprávička). K dispozici je hned několik obrazů.

Ladislav Hagara | Komentářů: 6
5.12. 06:00 | Zajímavý software

OMG! Ubuntu! představuje emulátor terminálu Hyper (GitHub) postavený na webových technologiích (HTML, CSS a JavaScript). V diskusi k článku je zmíněn podobný emulátor terminálu Black Screen. Hyper i Black Screen používají framework Electron, stejně jako editor Atom nebo vývojové prostředí Visual Studio Code.

Ladislav Hagara | Komentářů: 50
Kolik máte dat ve svém domovském adresáři na svém primárním osobním počítači?
 (32%)
 (24%)
 (29%)
 (8%)
 (5%)
 (3%)
Celkem 799 hlasů
 Komentářů: 50, poslední 29.11. 15:50
Rozcestník
Reklama

Dotaz: PDF na text

18.2.2011 09:31 eth4rendil | skóre: 13
PDF na text
Přečteno: 584×
Dobrý deň,

chcel by som Vás poprosiť o pomoc s nasledujúcou vecou.

Snažím sa o konverziu zaheslovaného PDFka do txt:
# file 36789_00_1398_2011-02-16.pdf
36789_00_1398_2011-02-16.pdf: PDF document, version 1.3
skúsil som to cez:
pdftotext - Portable Document Format (PDF)to text converter (version 3.00)
#pdftotext 36789_00_1398_2011-02-16.pdf -upw heslo
toto mi vrati vysledok, ktory vyzera asi takto:
BZOYTVL^Pi]Vs rpP^ )0)0/*-./0 ?PYL 8FC 7o^_X (,%’)%)’(( <54@ D=/) ((’’ ’’’’ ’’)0 )0/* -./0 5<6

skúsil som to s druhým nezaheslovaným PDF:
readme.pdf: PDF document, version 1.4
a tam mi to skonvertovalo úplne normálne.

Taktiež som to skúsil cez perl CAM::PDF
#!/usr/bin/perl

use CAM::PDF;
use CAM::PDF::PageText;

$filename = "pdf/36789_00_1398_2011-02-16.pdf";
#$filename = "pdf/readme.pdf";

my $doc = CAM::PDF->new($filename,q{},q{}, 1) || die "$CAM::PDF::errstr\n";
#my $doc = CAM::PDF->new($filename) || die "$CAM::PDF::errstr\n";

for my $pagenum (1 .. $doc->numPages()) {
   my $text = $doc->getPageText($pagenum);
   print $text;
}
ale tu sa ma dookola pýta na heslo a nerobí nič.

Používam Debian Squeeze.

Máte niekto skúsenosti s konvertovaním PDFka to textu.

Ďakujem

Odpovědi

18.2.2011 09:35 Jindrich
Rozbalit Rozbalit vše Re: PDF na text
Poohlédněte se po utilitě pdfcrack.
18.2.2011 10:18 eth4rendil | skóre: 13
Rozbalit Rozbalit vše Re: PDF na text
ďakujem za pripevok, ale pdfcrack sa snaži iba zistiť heslo pdfka. Heslo viem, ja sa to snažim to PDFko konvertovať do textu
18.2.2011 10:27 Jindrich
Rozbalit Rozbalit vše Re: PDF na text
Ještě je nějaká online služba, která heslo ze souboru odebere (myslel jsem, že to umí i pdfcrack...), pak není problém zkonvertovat výsledný soubor, kde to heslo už není...
18.2.2011 11:36 eth4rendil | skóre: 13
Rozbalit Rozbalit vše Re: PDF na text
no heslo som odobral takto: qpdf --password=heslo --decrypt in.pdf out.pdf

vystup je vo formate PDF document, version 1.3.

ale teraz sa mi zase vobec nedari to skonvertovat na text..
18.2.2011 12:36 NN
Rozbalit Rozbalit vše Re: PDF na text
poppler-utils (pdftotext)

NN
18.2.2011 13:23 eth4rendil | skóre: 13
Rozbalit Rozbalit vše Re: PDF na text
ďakujem za radu, ale v prvom príspevku som spomínal pdftotext. Výsledok z toho vyzerá asi takto:

BZOYTVL^Pi]Vs rpP^ )0)0/*-./0 ?PYL 8FC 7o^_X (,%’)%)’(( <54@ D=/) ((’’ ’’’’ ’’)0 )0/* -./0 5<6 DH<9E! E4ECD=5I
Chytrex avatar 18.2.2011 15:14 Chytrex | skóre: 27 | Bohumín
Rozbalit Rozbalit vše Re: PDF na text
A jsi si jist že ten text je opavdu text v tom pdf? Může to být text vložený jako obrázek a prostě to nepřevedeš.. možná tak OCRkem.. Zkusil bych v kpdf (nebo v jiném pdf prohlížeči) vypnout DRM a zkusit zkopírovat kus textu zda to bude textové:)
Hrdý člen KERNEL ULTRAS .:. define QUESTION ((bb) || !(bb)) .:. Odmítám vaši realitu a nahrazuji ji svou vlastní..
18.2.2011 17:50 eth4rendil | skóre: 13
Rozbalit Rozbalit vše Re: PDF na text
ano viem to z určitostou potvrdiť. pomocou tejto služby som to pdfko zkonvertoval to txt http://www.convertpdftotext.net/ okrem toho ked ho otvorím vo windowse tak ctrl + c text môžem skopírovať a vložiť do textového editoru
20.2.2011 16:40 eth4rendil | skóre: 13
Rozbalit Rozbalit vše Re: PDF na text
hmm zistil som jednu zaujimavu vec: ono ten nezmyselny text, ktorý mi exportuje pdftotxt vlastne dáva zmysel
napr: 
$ je -
B je P
Z je o
O je d

teda tento string:
BZOYTVL^Pi]Vs rpP^
je vlastne
Podnikatelsky ucet
Nedáva to niekomu zmysel čo to môže byť a ako to najjednoduchšie preložiť?

Ďakujem
20.2.2011 18:04 chrono
Rozbalit Rozbalit vše Re: PDF na text
S týmto som sa pred pár rokmi stretol pri pdf súboroch s elektronickou verziou jedného časopisu. Používali to ako ochranu a fungovalo im to tak, že tam používali špeciálne písmo, ktoré malo poprehadzované znaky (a zodpovedajúco bol upravený text).
20.2.2011 22:33 eth4rendil | skóre: 13
Rozbalit Rozbalit vše Re: PDF na text
Myslím, že to môže byť neaká forma ochrany. Napr. teraz keď som z druhého počítača skopíroval vo win Adobe Readeri cez Ctrl + C a vložil to do notepadu dostal som presne ten istý zlý výsledok ako v linuxe. Vám sa to nakoniec ako podrailo vyriešiť?
stativ avatar 21.2.2011 08:28 stativ | skóre: 54 | blog: SlaNé roury
Rozbalit Rozbalit vše Re: PDF na text
Nedáva to niekomu zmysel čo to môže byť a ako to najjednoduchšie preložiť?

Ďakujem
Smysl mi to sice nedává, ale jestli je to opravdu tak, použij tr pro nahrazení písmenek za správná.
lukas@black-dragon:~> echo "BZOYTVL^Pi]Vs rpP^" > test
lukas@black-dragon:~> tr "BZOYTVL^Pi]Vsrp" "Podnikatelskyuc" < test 
Podnikatelsky ucet
Ať sežeru elfa i s chlupama!!! ljirkovsky.wordpress.com stativ.tk
21.2.2011 09:33 eth4rendil | skóre: 13
Rozbalit Rozbalit vše Re: PDF na text
ďakujem za radu. Takto som to už skúšal ale cez perl $out =~ tr/\$BZOYTVL^Pi]Vsrp)0\/*\-\.?L8FC7o\_X(,%<54@D=6H9EU;\\/-Podnikatelskyuc298367MaEurdaum15.IBANSKCWFTjHr/;

je to vcelku časovo náročné, ale hlavný problém je vtom, že sa jedná o výpisy z banky, ktoré chodia denné a ked som vytvoril podľa jedneho dna vzor na prevod znakov tak na PDFku z druhého dňa to už "nepasovalo" a znova boli poprehadzované znaky...
21.2.2011 15:05 chrono
Rozbalit Rozbalit vše Re: PDF na text
Pdf súbory nie sú zrovna určené na počítačové spracovávanie. Tá banka neposkytuje tie údaje aj v inej, použiteľnejšej forme (často sa to dá stiahnuť ako csv alebo xml súbor).
stativ avatar 18.2.2011 15:32 stativ | skóre: 54 | blog: SlaNé roury
Rozbalit Rozbalit vše Re: PDF na text
Hmm, mám úplně stejný problém s tímto PDF. Chtěl bych to přeložit a ten samý problém se týká i google translate a adobe reader.
Ať sežeru elfa i s chlupama!!! ljirkovsky.wordpress.com stativ.tk
stativ avatar 18.2.2011 15:34 stativ | skóre: 54 | blog: SlaNé roury
Rozbalit Rozbalit vše Re: PDF na text
Podle mě je ten text vykřivkovaný.
Ať sežeru elfa i s chlupama!!! ljirkovsky.wordpress.com stativ.tk
18.2.2011 15:40 helb
Rozbalit Rozbalit vše Re: PDF na text
Příloha:
Je to ještě zvrácenější, jednotlivá písmenka jsou tam jako bitmapy (viz přílohu). Tedy alespoň podle Adobe...
stativ avatar 18.2.2011 16:38 stativ | skóre: 54 | blog: SlaNé roury
Rozbalit Rozbalit vše Re: PDF na text
No tak to tedy fuj. Díky za ozkoušení. Předpokládám, že tazatel má naprosto stejný problém – tváří se, že to jde převést, text jde i vybrat ale výsledek je vše možné, jenom ne text.
Ať sežeru elfa i s chlupama!!! ljirkovsky.wordpress.com stativ.tk
21.2.2011 11:19 Ivan
Rozbalit Rozbalit vše Re: PDF na text
Nastroj na konverzi PDF do textu(nebo do .ps) je i acrobat reader. Nevim jak je na tom aktualni verze, ale ty predchozi mely command line option pro konverzi na .txt.
21.2.2011 15:04 chrono
Rozbalit Rozbalit vše Re: PDF na text
Pri takto "chránených" súboroch to nijako nepomôže.
21.2.2011 16:01 eth4rendil | skóre: 13
Rozbalit Rozbalit vše Re: PDF na text
Skúšal som to na win Adobe Reader 9.1 uložiť ako text a funguje to normálne - korektne mi uložilo znaky. Na laptope mám nainštalovanú staršiu verziu adobe a tam to uložilo nesprávne znaky. Na debiana som dal Adobe Acrobat Reader: 9.4.1-0.1. Ten ale zrejme nevie bežať bez GUI resp. konvertovať do TXT z príkozového riadku...

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267   www.czech-server.cz
© 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.