Portál AbcLinuxu, 13. května 2025 13:43
Dobrý den,
na převod PDF dokumentu jsem zkusil utilitku pdftotext
, ale nebyl jsem spokojený s převodem diakritiky. Převádím česky psaný PDF do UTF-8 plaintextu.
Chtěl jsem tudíž zkusit cestu, kdy nejdřív utilitkou convert
převedu zmíněný PDF dokument na obrázek(y) třeba ve formátu PNG. Následně bych pomocí programu cuneiform
převedl zmíněné obrázky na prostý text. Jenže jsem narazil.
Takto jsem postupoval:
convert dokument.pdf dokument.png # Tímto jsem získal soubory: dokument-0.png až dokument-272.png.
Uměl bych pomocí cuneiform -l cze -f text -o dokument-0.txt dokument-0.png
převést jeden obrázek do plaintextu.
Ale problémem je převést všechny obrázky do plaintextu a ve správném pořadí (!) výstupní plaintext soubory sloučit do jednoho souboru.
Abych to ještě víc osvětlil, tak zde je výpis ls
v adresáři, kde se nachází již zmíněné PNG obrázky:
dokument.pdf dokument-118.png dokument-139.png dokument-16.png dokument-180.png dokument-200.png dokument-221.png dokument-242.png dokument-263.png dokument-39.png dokument-6.png dokument-80.png dokument-0.png dokument-119.png dokument-14.png dokument-160.png dokument-181.png dokument-201.png dokument-222.png dokument-243.png dokument-264.png dokument-4.png dokument-60.png dokument-81.png dokument-1.png dokument-12.png dokument-140.png dokument-161.png dokument-182.png dokument-202.png dokument-223.png dokument-244.png dokument-265.png dokument-40.png dokument-61.png dokument-82.png dokument-10.png dokument-120.png dokument-141.png dokument-162.png dokument-183.png dokument-203.png dokument-224.png dokument-245.png dokument-266.png dokument-41.png dokument-62.png dokument-83.png dokument-100.png dokument-121.png dokument-142.png dokument-163.png dokument-184.png dokument-204.png dokument-225.png dokument-246.png dokument-267.png dokument-42.png dokument-63.png dokument-84.png dokument-101.png dokument-122.png dokument-143.png dokument-164.png dokument-185.png dokument-205.png dokument-226.png dokument-247.png dokument-268.png dokument-43.png dokument-64.png dokument-85.png dokument-102.png dokument-123.png dokument-144.png dokument-165.png dokument-186.png dokument-206.png dokument-227.png dokument-248.png dokument-269.png dokument-44.png dokument-65.png dokument-86.png dokument-103.png dokument-124.png dokument-145.png dokument-166.png dokument-187.png dokument-207.png dokument-228.png dokument-249.png dokument-27.png dokument-45.png dokument-66.png dokument-87.png dokument-104.png dokument-125.png dokument-146.png dokument-167.png dokument-188.png dokument-208.png dokument-229.png dokument-25.png dokument-270.png dokument-46.png dokument-67.png dokument-88.png dokument-105.png dokument-126.png dokument-147.png dokument-168.png dokument-189.png dokument-209.png dokument-23.png dokument-250.png dokument-271.png dokument-47.png dokument-68.png dokument-89.png dokument-106.png dokument-127.png dokument-148.png dokument-169.png dokument-19.png dokument-21.png dokument-230.png dokument-251.png dokument-272.png dokument-48.png dokument-69.png dokument-9.png dokument-107.png dokument-128.png dokument-149.png dokument-17.png dokument-190.png dokument-210.png dokument-231.png dokument-252.png dokument-28.png dokument-49.png dokument-7.png dokument-90.png dokument-108.png dokument-129.png dokument-15.png dokument-170.png dokument-191.png dokument-211.png dokument-232.png dokument-253.png dokument-29.png dokument-5.png dokument-70.png dokument-91.png dokument-109.png dokument-13.png dokument-150.png dokument-171.png dokument-192.png dokument-212.png dokument-233.png dokument-254.png dokument-3.png dokument-50.png dokument-71.png dokument-92.png dokument-11.png dokument-130.png dokument-151.png dokument-172.png dokument-193.png dokument-213.png dokument-234.png dokument-255.png dokument-30.png dokument-51.png dokument-72.png dokument-93.png dokument-110.png dokument-131.png dokument-152.png dokument-173.png dokument-194.png dokument-214.png dokument-235.png dokument-256.png dokument-31.png dokument-52.png dokument-73.png dokument-94.png dokument-111.png dokument-132.png dokument-153.png dokument-174.png dokument-195.png dokument-215.png dokument-236.png dokument-257.png dokument-32.png dokument-53.png dokument-74.png dokument-95.png dokument-112.png dokument-133.png dokument-154.png dokument-175.png dokument-196.png dokument-216.png dokument-237.png dokument-258.png dokument-33.png dokument-54.png dokument-75.png dokument-96.png dokument-113.png dokument-134.png dokument-155.png dokument-176.png dokument-197.png dokument-217.png dokument-238.png dokument-259.png dokument-34.png dokument-55.png dokument-76.png dokument-97.png dokument-114.png dokument-135.png dokument-156.png dokument-177.png dokument-198.png dokument-218.png dokument-239.png dokument-26.png dokument-35.png dokument-56.png dokument-77.png dokument-98.png dokument-115.png dokument-136.png dokument-157.png dokument-178.png dokument-199.png dokument-219.png dokument-24.png dokument-260.png dokument-36.png dokument-57.png dokument-78.png dokument-99.png dokument-116.png dokument-137.png dokument-158.png dokument-179.png dokument-2.png dokument-22.png dokument-240.png dokument-261.png dokument-37.png dokument-58.png dokument-79.png dokument-117.png dokument-138.png dokument-159.png dokument-18.png dokument-20.png dokument-220.png dokument-241.png dokument-262.png dokument-38.png dokument-59.png dokument-8.png
Budu vděčný za každou radu. Předem děkuju.
Řešení dotazu:
ls
s parameterm -v
vám ty soubory setřídí správně – dokument-0.png, dokument-1.png, dokument-2.png, …, dokument-10.png, dokument-11.png atd.
for txt in dokument-*.txt; do cuneiform -l cze -f text -o "${txt%.txt}.png" "$txt" done cat dokument-{0..272}.txt > dokument-final.txt
Děkuju oběma pánům za rady.
Vyskytl se ale jiný problém — úplně zmršený text získaný pomocí cuneiform
.
Pokusím se to vyřešit sám. Pokud se mi to nepodaří vyřešit, tak vznesu dotaz zde ve fóru.
Tiskni
Sdílej:
ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.