Portál AbcLinuxu, 30. dubna 2025 12:41
Po téměř úplném přechodu na Linux přibližně před rokem jsem přestal používat OCR jelikož jsem na to nenašel žádný použitelný software pro Linux zdarma. Nic z toho co jsem zkoušel nefungovalo. Google nedávno informoval o uvolnění OCR engine Tesseract pod licencí Apache 2.0. Dnešní článek na Newsforge mi to připomněl, tak jsem se rozhodl Tesseract vyzkoušet. Zdrojový kód je ke stažení ze Sourceforge. Kompilace a instalace je snadná a rychlá (Ubuntu 6.06): $ ./configure; make; sudo checkinstall -D
. Tesseract však poté nefunguje. Je ještě třeba dát adresář tessdata/
do /usr/local/bin/
.
Dal jsem Tesseractu přečíst stránku jednoho článku ve formátu tiff ($ tesseract test.tif test
). Ta jedna stránka má 17 MB (scan z kopírky v knihovně) a Tesseract ji přečetl skoro hned. Existuje i skript na převod souborů pro Tesseract. Vzniklý soubor test.txt
je minimálně stejně dobrý jako výstupy z různých programů co jsem používal ve Windows (nepamatuju kterých, prostě nějaký shareware). Je tam pár chyb, ale jsem mile překvapen. Zdá se že znovu začnu využívat OCR.
Tiskni
Sdílej:
ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.