Portál AbcLinuxu, 30. dubna 2025 18:20

Skript pro převod pdf do txt

18.5.2010 12:12 | Přečteno: 1928× | GNU/Linux

Už dostkrát se mi stalo, že jsem potřeboval převést český pdf dokument do prostého textu, ale narazil jsem na zmršenou diakritiku v txt souboru. Zde nabízím skript, který toto vyřeší.

#!/bin/bash
# Tento velmi jednoduchý skript převede česky psaný pdf dokument
# do prostého textu v UTF-8.
# Je úzce specializovaný na pdf dokumenty, u kterých program
# pdftotext nekorektně odhadne kódování. Tedy pdftotext odhadne,
# že se jedná o kódování ISO-8859-2, a veskutečnosti se jedná o
# kódování Windows-1250.
# 1. parametrem je název vstupního pdf dokumentu, 2. parametrem je název
# výstupního txt souboru.
pdftotext -enc "UTF-8" -eol unix $1 - \
| iconv -c -f utf8 -t 8859_2 | iconv -c -f cp1250 -t utf8 > $2
       

Hodnocení: 83 %

        špatnédobré        

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

Komentáře

Nástroje: Začni sledovat (1) ?Zašle upozornění na váš email při vložení nového komentáře. , Tisk

Vložit další komentář

18.5.2010 13:39 miro
Rozbalit Rozbalit vše Re: Skript pro převod pdf do txt
Odpovědět | Sbalit | Link | Blokovat | Admin
Nikdy jsem pdftotext nepoužíval, a proto jsem si myslel, že se tenhle problém týká pouze geditu. A přitom poznat, že jde o cp-1250 a ne o ISO-8859-2 většinou není problém ani na strojové úrovni.
18.5.2010 13:56 Begleiter | skóre: 47 | blog: muj_blog | Doma
Rozbalit Rozbalit vše Re: Skript pro převod pdf do txt

Ono ani moje "řešení" není ideální. Často pdftotext vynechá úplně znak s diakritikou...

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.