Portál AbcLinuxu, 30. dubna 2025 18:20
Už dostkrát se mi stalo, že jsem potřeboval převést český pdf dokument do prostého textu, ale narazil jsem na zmršenou diakritiku v txt souboru. Zde nabízím skript, který toto vyřeší.
#!/bin/bash # Tento velmi jednoduchý skript převede česky psaný pdf dokument # do prostého textu v UTF-8. # Je úzce specializovaný na pdf dokumenty, u kterých program # pdftotext nekorektně odhadne kódování. Tedy pdftotext odhadne, # že se jedná o kódování ISO-8859-2, a veskutečnosti se jedná o # kódování Windows-1250. # 1. parametrem je název vstupního pdf dokumentu, 2. parametrem je název # výstupního txt souboru. pdftotext -enc "UTF-8" -eol unix $1 - \ | iconv -c -f utf8 -t 8859_2 | iconv -c -f cp1250 -t utf8 > $2
Tiskni
Sdílej:
ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.