Jak na dokument s velkým množstvím „překlepů“

Přihlášení | Registrace

napište » Zprávičky

Angular 18.0.0

dnes 12:55 | Nová verze

Byla vydána (𝕏) nová verze 18.0.0 open source webového aplikačního frameworku Angular (Wikipedie). Přehled novinek v příspěvku na blogu.

Ladislav Hagara | Komentářů: 0

Maker Faire Rychnov nad Kněžnou

včera 23:44 | Pozvánky

V neděli 26. května lze navštívit Maker Faire Rychnov nad Kněžnou, festival plný workshopů, interaktivních činností a především nadšených a zvídavých lidí.

Ladislav Hagara | Komentářů: 0

Alpine Linux 3.20.0

včera 16:33 | Nová verze

Byla vydána nová stabilní verze 3.20.0, tj. první z nové řady 3.20, minimalistické linuxové distribuce zaměřené na bezpečnost Alpine Linux (Wikipedie) postavené na standardní knihovně jazyka C musl libc a BusyBoxu. Z novinek lze vypíchnou počáteční podporu 64bitové architektury RISC-V.

Ladislav Hagara | Komentářů: 0

Jolla Community Phone a Jolla Mind2 Community Edition AI Computer

včera 14:11 | IT novinky

Společnost Jolla na akci s názvem Jolla Love Day 2 - The Jolla comeback představila telefon se Sailfish OS 5.0 Jolla Community Phone (ve spolupráci se společností Reeder) a počítač Jolla Mind2 Community Edition AI Computer.

Ladislav Hagara | Komentářů: 2

Alfa verze LibreOffice 24.8 dostupná k testování

včera 12:33 | Nová verze

LibreOffice 24.8 bude vydán jako finální v srpnu 2024, přičemž LibreOffice 24.8 Alpha1 je první předběžnou verzí od začátku vývoje verze 24.8 v prosinci 2023. Od té doby bylo do úložiště kódu odesláno 4448 commitů a více než 667 chyb bylo v Bugzille nastaveno jako opravené. Nové funkce obsažené v této verzi LibreOffice najdete v poznámkách k vydání.

ZCR | Komentářů: 0

MagPi 141 a HackSpace 78

21.5. 23:33 | Nová verze

Nová čísla časopisů od nakladatelství Raspberry Pi: MagPi 141 (pdf) a HackSpace 78 (pdf).

Ladislav Hagara | Komentářů: 0

Kotlin 2.0.0 a KotlinConf 2024

21.5. 21:22 | Nová verze

Byla vydána verze 2.0.0 programovacího jazyka Kotlin (Wikipedie, GitHub). Oficiálně bude představena ve čtvrtek na konferenci KotlinConf 2024 v Kodani. Livestream bude možné sledovat na YouTube.

Ladislav Hagara | Komentářů: 2

Erlang/OTP 27.0

21.5. 12:55 | Nová verze

Byla vydána nová major verze 27.0 programovacího jazyka Erlang (Wikipedie) a související platformy OTP (Open Telecom Platform, Wikipedie). Přehled novinek v příspěvku na blogu.

Ladislav Hagara | Komentářů: 0

HandBrake 1.8.0

21.5. 01:11 | Nová verze

Byla vydána nová verze 1.8.0 svobodného multiplatformního softwaru pro konverzi video formátů HandBrake (Wikipedie). Přehled novinek v poznámkách k vydání na GitHubu. Instalovat lze také z Flathubu.

Ladislav Hagara | Komentářů: 0

Microsoft Copilot+

20.5. 21:55 | IT novinky

Microsoft představil nové označení počítačů Copilot+. Dle oznámení se jedná se o počítače poskytující funkce umělé inteligence. Vedle CPU a GPU mají také NPU (Neural Processing Unit). Uvnitř představených Copilot+ notebooků běží ARM čipy Qualcomm Snapdragon X Elite nebo X Plus.

Ladislav Hagara | Komentářů: 7

Centrum | Napsat | Starší

navrhněte » Anketa

Podle hypotézy Mrtvý Internet mj. tvoří většinu online interakcí boti.

Jsem bot. (82%)

Jsem člověk. (4%)

Opravdu jsem člověk! (7%)

Jsem něco jiného. (7%)

Celkem 500 hlasů

Komentářů: 16, poslední 14.5. 11:05

Rozcestník

AbcLinuxu

HDmag.cz

Begleiter - muj_blog

Aktuální zápisy

? Archív

? Navigace

Nej blogů na AbcLinuxu

Nejčtenější za poslední měsíc

Nejkomentovanější za poslední měsíc

AbcLinuxu:/ Blogy / muj_blog / Ostatní / Jak na dokument s velkým množstvím &bdquo;překlepů“

Štítky: chyby, PDF, problém, prohlížeče

Jak na dokument s velkým množstvím „překlepů“

13.7.2010 11:07 | Ostatní

Převedl jsem jeden PDF soubor do prostého textu pomocí pdftotext. Problém je, že výsledný soubor obsahuje velké (hodně velké) množství „překlepů“ — tedy spíš ne pravopisné chyby, ale chyby typu: onemocnla (onemocněla), pláem (pláčem), nkdy (někdy)... Jde tedy nejčastěji o chybějící písmenka s diakritikou.

No a já uvažuju, jak se co nepohodlněji dostat k dokumentu, který oproti původnímu obsahuje minimum chyb a aby to bylo pokud možno automatické, aby to šlo jenom s minimální námahou.

Jako první možnost mě napadl aspell, jenže u něj jsem nenašel parametry, jak opravu zautomatizovat (v mém případě nutnost). Musel bych tedy mockrát mačkat klávesy, což nechci.

A u aspellu jsem skončil, protože jsem nenašel (špatně jsem hledal?) jiný nástroj, který by dovedl to, co aspell nedovede (tedy zautomatizovat opravu „překlepů“).

Budu moc rád, pokud mě aspoň navedete, jak tento problém vyřešit. Předem díky.

Hodnocení: 100 %

špatné • dobré

Tiskni Sdílej:

Komentáře

Nástroje: Začni sledovat (1) ? , Tisk

Vložit další komentář

13.7.2010 12:40 ____ | skóre: 15 | blog: _
Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“

Odpovědět | Sbalit | Link | Blokovat | Admin

Cožpak se nedá mačkání kláves zautomatizovat, vyberu-li to nejhloupější řešení?

Jinak mám dojem, že je aspell knihovna, takže bys si snad mohl třeba v nějakém Pythonu nebo kdovíčem napsat skript.

Nepředpokládám, že by naprogramování něčeho takového stálo moc úsilí i relativní neprogramátory.

13.7.2010 13:14 Begleiter | skóre: 47 | blog: muj_blog | Doma
Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“

Jinak mám dojem, že je aspell knihovna, takže bys si snad mohl třeba v nějakém Pythonu nebo kdovíčem napsat skript.

Nepředpokládám, že by naprogramování něčeho takového stálo moc úsilí i relativní neprogramátory.

Ano, toto je řešení. Díky. Stejně jsem se naučit aspoň základy Pythonu chystal. Určitě by šel použít i Perl, ale Python bude asi pro začátečníka jako jsem já vhodnější.

13.7.2010 13:38 Zdenek
Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“

Odpovědět | Sbalit | Link | Blokovat | Admin

Chapu to tak ze puvodni PDF je v poradku? Jestli ano, pak jdete naprosto nesmyslnou cestou.

13.7.2010 13:40 ____ | skóre: 15 | blog: _
Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“

+1, to jsem v textu nějak přehlédl.

13.7.2010 14:04 R
Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“

Mnohe PDF nie su vporiadku, len to tak vyzera. Niektore programy pri vytvarani PDF diakritiku znicia - nahradia bitmapami, skladaju z roznych divnych znakov a pod.

13.7.2010 14:14 CEST
Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“

No, chtel jsem napsat, ze resenim je spravne nastaveni znakove sady/kodovani pri konvertovani.

Nejsem si jistej, ale pokud by neco nahrazovalo v PDF cesky znaky bitmapama, tak by to musel byt taky docela slozitej algoritmus, protoze je jednodussi v PDF vygenerovat cesky text pomoci znaku (v jakymkoliv kodovani) nez zjistovat font, generovat bitmatu v tomtu fontu pro prislusny cesky znak, puvodni cesky znak nahradit stejne sirokou mezerou a pak propocitavat umisteni tehle mezery, resp. umisteni toho ceskeho bitmap znaku, aby bylo to pismeno spravne vertikalne a horizontalne usazene. Takhle by to snad naprogramoval jenom idiot.

Spis tam bude opravdu problem s kodovanim. Zatimco pdftotext pouziva kodovani "A", PDF je kodovani pomoci "B". Zkusil by se zamerit na tohle a hledat na google.

13.7.2010 14:47 Jirka P
Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“

Nejsem si jistej, ale pokud by neco nahrazovalo v PDF cesky znaky bitmapama, tak by to musel byt taky docela slozitej algoritmus

Fakt ne, rozhodně ne složitější, než jak se to renderuje na obrazovku.

Nejsem si jistej, ale pokud by neco nahrazovalo v PDF cesky znaky bitmapama, tak by to musel byt taky docela slozitej algoritmus

Vzhledem k tomu, že PDF je prezentační formát, dělají to tak všichni, kterým záleží na přesném zobrazení toho, co si přejí. Spíš než na bitmapy se to převádí na křivky (na bitmapy jsou převedené spíš dokumenty zkonvertované z PS s bitmapovými fonty), ale z hlediska kopírování to vyjde nastejno. Často je to tak, že PDF v sobě má něco jako "font", ale v kódování, které je ad hoc vytvořeno pro daný dokument. Vizte např. tento dokument a zkuste si s ním pohrát.

13.7.2010 14:58 Begleiter | skóre: 47 | blog: muj_blog | Doma
Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“

Spis tam bude opravdu problem s kodovanim. Zatimco pdftotext pouziva kodovani "A", PDF je kodovani pomoci "B". Zkusil by se zamerit na tohle a hledat na google.

Problém je ten, že u pdftotext lze nastavit pouze výstupní kódávní pomocí -enc, ale vstupní nějak detekuje sám.

13.7.2010 15:12 Begleiter | skóre: 47 | blog: muj_blog | Doma
Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“

Původní PDF je v pořádku. Jakou cestou bych teda měl jít?

13.7.2010 15:42 Tomáš
Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“

Pohrej si s nastavením kódování při převodu. Při troše štěstí dostaneš pěkný text s háčky a čárkami. V o trošku horším případě dostaneš něco, kde je místo českých znaků nějaká divná sekvence, a ty už si nahradíš strojově.

13.7.2010 16:05 Begleiter | skóre: 47 | blog: muj_blog | Doma
Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“

Takto jsem převedl PDF soubor do plain textu:

pdftotext -enc UTF-8 soubor.pdf soubor.txt

Místo znaků s diakritikou jsem dostal divnou sekvenci. Teď zbývá nahradit ty divné znaky správnými znaky s diakritikou. Vypadá to dobře. Díky. Nahrazuju to v geditu.

16.7.2010 08:37 asdf
Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“

prohnal bych to pdf printerem, v output nastaveni misto pdf vybral jpg, tim bych ziskal cely pdf dokument prevedeny do obrazku. vsechny obrazky oznacit, vlozit do ocr programu a za dve minuty neni co resit!

13.7.2010 16:57 Begleiter | skóre: 47 | blog: muj_blog | Doma
Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“

Odpovědět | Sbalit | Link | Blokovat | Admin

Takže řešení je prosté: Nejdřív převést pomocí pdftotext soubor do plain textu: pdftotext -enc UTF-8 soubor.pdf soubor.txt Potom pomocí nějakého nástroje (já použil gedit, ale můžete určitě použít sed apod.) nahradíte "klikyháky" za české znaky s diakritikou.

Založit nové vlákno • Nahoru

Píšeme jinde

ISSN 1214-1267 www.czech-server.cz

Redakce | Inzerce | Podmínky použití | Osobní údaje