Jak na dokument s velkým množstvím „překlepů“ (diskuse)

AbcLinuxu hledá autory!

Inzerujte na AbcPráce.cz od 950 Kč

Rozšířené hledání

napište » Zprávičky

inzerujte » Pracovní nabídky

Klávesnice Codex Micro

dnes 02:44 | IT novinky

Ve spolupráci společností OpenAI a Work Louder byla představena (𝕏) hardwarová klávesnice Codex Micro pro práci s AI agenty. Cena klávesnice je 230 dolarů.

Ladislav Hagara | Komentářů: 0

Firefox 153.0

včera 20:00 | Nová verze

Byl vydán Mozilla Firefox 153.0. Přehled novinek v poznámkách k vydání a poznámkách k vydání pro vývojáře. Řešeny jsou rovněž bezpečnostní chyby. Nový Firefox 153 bude brzy k dispozici také na Flathubu a Snapcraftu.

Ladislav Hagara | Komentářů: 0

433 zranitelností v linux-cve-announce za jediný den

včera 13:44 | Bezpečnostní upozornění

V linux-cve-announce bylo oznámeno 433 zranitelností za jediný den (19. července).

Ladislav Hagara | Komentářů: 7

Perl 5.44

včera 13:11 | Nová verze

Byla vydána nová verze 5.44 programovacího jazyka Perl (Wikipedie). Do vývoje se zapojilo 71 vývojářů. Změněno bylo přibližně 270 tisíc řádků v 1 300 souborech. Přehled novinek a změn v podrobném seznamu.

Ladislav Hagara | Komentářů: 0

Konference #nobullshit.camp nabídne příběhy z praxe DevOps a platform inženýrů

včera 12:33 | Pozvánky

Na 23. září 2026 je do bratislavské Nové Cvernovky naplánovaná jednodenní konference #nobullshit.camp pro tech leadery, DevOps a platform inženýry. Mají tu zaznít upřímné příběhy z praxe o tom, co v produkčních systémech reálně fungovalo, co se pokazilo a co si z toho lidé odnesli. Témata pokrývají tři oblasti – DevOps a platformy (Kubernetes, cloud, provoz systémů), firemní kulturu a leadership. Program běží ve dvou formátech: hlavní

… více »

alian | Komentářů: 0

NetworkManager 1.58

včera 03:44 | Nová verze

Byla vydána nová verze 1.58 sady nástrojů pro správu síťových připojení NetworkManager. Novinkám se v příspěvku na blogu NetworkManageru věnuje Josephine Pfeiffer. Vypíchnout lze možnost nmtui zobrazit nastavení Wi-Fi jako QR kód nebo podporu CLAT (464XLAT) a tunelů GENEVE (Generic Network Virtualization Encapsulation).

Ladislav Hagara | Komentářů: 0

Zákaz mobilů ve školách vláda podpořila

20.7. 20:22 | IT novinky

Zákaz používání mobilních telefonů a dalších elektronických komunikačních zařízení ve školách, jehož uzákonění navrhli jako poslanci premiér Andrej Babiš (ANO) a ministr školství Robert Plaga (za ANO), dnes podle očekávání vláda podpořila. Novinářům to oznámil Babiš, podle Plagy byla podpora kabinetu jednomyslná. Účinnost předkladatelé navrhují od 1. září 2027. Podle opoziční ODS je plošný zákaz líbivé populistické opatření namířené proti digitální gramotnosti dětí.

Ladislav Hagara | Komentářů: 10

Zranitelnost ve WordPress Core: CVE-2026-63030 s přezdívkou wp2shell

20.7. 19:33 | Bezpečnostní upozornění

Vládní CERT upozorňuje (𝕏) na zranitelnost ve WordPress Core: CVE-2026-63030 s přezdívkou wp2shell. Zranitelnost typu vzdálené spuštění kódu (RCE) bez nutnosti autentizace umožňuje útočníkovi spouštět libovolný kód prostřednictvím endpointu WordPress REST API Batch. Ke zneužití není vyžadován platný uživatelský účet ani interakce uživatele. Úspěšné zneužití může vést ke kompletnímu kompromitování webové stránky a souvisejících dat. Zranitelnost postihuje verze WordPress 6.9.0 až 6.9.4 a 7.0.0 až 7.0.1.

Ladislav Hagara | Komentářů: 0

Evropská komise vyměřila AliExpressu pokutu 550 milionů eur

20.7. 18:11 | IT novinky

Evropská komise (EK) vyměřila čínskému internetovému prodejci AliExpress pokutu 550 milionů eur (13,3 miliardy korun) za porušení povinností vyplývajících z nařízení o digitálních službách (DSA). Platforma podle EK řádně neposuzovala a neomezovala rizika související s prodejem nelegálních, nebezpečných nebo padělaných výrobků na svém internetovém tržišti. Komise zároveň firmě nařídila přijmout nápravná opatření. Podle AliExpressu je pokuta nepřiměřená.

Ladislav Hagara | Komentářů: 18

Ruffle 0.4.0

20.7. 12:22 | Nová verze

Ruffle, tj. open source emulátor Flash Playeru napsaný v Rustu, byl vydán ve verzi 0.4.0. Ke stažení je také na Flathubu. Přímo ve webovém prohlížeči lze vyzkoušet online dema nebo vlastní swf soubory.

Ladislav Hagara | Komentářů: 5

Centrum | Napsat | Starší

navrhněte » Anketa

Komentářů: 30, poslední 3.4. 20:20

Rozcestník

AbcLinuxu

HDmag.cz

AbcLinuxu:/ Blogy / muj_blog / Jak na dokument s velkým množstvím &bdquo;překlepů“ / Jak na dokument s velkým množstvím &bdquo;překlepů“ (diskuse)

Štítky: není přiřazen žádný štítek

Nástroje: Začni sledovat (1) ?

Vložit další komentář

13.7.2010 12:40 ____ | skóre: 15 | blog: _
Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“

Odpovědět | Sbalit | Link | Blokovat | Admin

Cožpak se nedá mačkání kláves zautomatizovat, vyberu-li to nejhloupější řešení?

Jinak mám dojem, že je aspell knihovna, takže bys si snad mohl třeba v nějakém Pythonu nebo kdovíčem napsat skript.

Nepředpokládám, že by naprogramování něčeho takového stálo moc úsilí i relativní neprogramátory.

13.7.2010 13:14 Begleiter | skóre: 47 | blog: muj_blog | Doma
Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“

Jinak mám dojem, že je aspell knihovna, takže bys si snad mohl třeba v nějakém Pythonu nebo kdovíčem napsat skript.

Nepředpokládám, že by naprogramování něčeho takového stálo moc úsilí i relativní neprogramátory.

Ano, toto je řešení. Díky. Stejně jsem se naučit aspoň základy Pythonu chystal. Určitě by šel použít i Perl, ale Python bude asi pro začátečníka jako jsem já vhodnější.

13.7.2010 13:38 Zdenek
Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“

Odpovědět | Sbalit | Link | Blokovat | Admin

Chapu to tak ze puvodni PDF je v poradku? Jestli ano, pak jdete naprosto nesmyslnou cestou.

13.7.2010 13:40 ____ | skóre: 15 | blog: _
Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“

+1, to jsem v textu nějak přehlédl.

13.7.2010 14:04 R
Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“

Mnohe PDF nie su vporiadku, len to tak vyzera. Niektore programy pri vytvarani PDF diakritiku znicia - nahradia bitmapami, skladaju z roznych divnych znakov a pod.

13.7.2010 14:14 CEST
Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“

No, chtel jsem napsat, ze resenim je spravne nastaveni znakove sady/kodovani pri konvertovani.

Nejsem si jistej, ale pokud by neco nahrazovalo v PDF cesky znaky bitmapama, tak by to musel byt taky docela slozitej algoritmus, protoze je jednodussi v PDF vygenerovat cesky text pomoci znaku (v jakymkoliv kodovani) nez zjistovat font, generovat bitmatu v tomtu fontu pro prislusny cesky znak, puvodni cesky znak nahradit stejne sirokou mezerou a pak propocitavat umisteni tehle mezery, resp. umisteni toho ceskeho bitmap znaku, aby bylo to pismeno spravne vertikalne a horizontalne usazene. Takhle by to snad naprogramoval jenom idiot.

Spis tam bude opravdu problem s kodovanim. Zatimco pdftotext pouziva kodovani "A", PDF je kodovani pomoci "B". Zkusil by se zamerit na tohle a hledat na google.

13.7.2010 14:47 Jirka P
Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“

Nejsem si jistej, ale pokud by neco nahrazovalo v PDF cesky znaky bitmapama, tak by to musel byt taky docela slozitej algoritmus

Fakt ne, rozhodně ne složitější, než jak se to renderuje na obrazovku.

Nejsem si jistej, ale pokud by neco nahrazovalo v PDF cesky znaky bitmapama, tak by to musel byt taky docela slozitej algoritmus

Vzhledem k tomu, že PDF je prezentační formát, dělají to tak všichni, kterým záleží na přesném zobrazení toho, co si přejí. Spíš než na bitmapy se to převádí na křivky (na bitmapy jsou převedené spíš dokumenty zkonvertované z PS s bitmapovými fonty), ale z hlediska kopírování to vyjde nastejno. Často je to tak, že PDF v sobě má něco jako "font", ale v kódování, které je ad hoc vytvořeno pro daný dokument. Vizte např. tento dokument a zkuste si s ním pohrát.

13.7.2010 14:58 Begleiter | skóre: 47 | blog: muj_blog | Doma
Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“

Spis tam bude opravdu problem s kodovanim. Zatimco pdftotext pouziva kodovani "A", PDF je kodovani pomoci "B". Zkusil by se zamerit na tohle a hledat na google.

Problém je ten, že u pdftotext lze nastavit pouze výstupní kódávní pomocí -enc, ale vstupní nějak detekuje sám.

13.7.2010 15:12 Begleiter | skóre: 47 | blog: muj_blog | Doma
Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“

Původní PDF je v pořádku. Jakou cestou bych teda měl jít?

13.7.2010 15:42 Tomáš
Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“

Pohrej si s nastavením kódování při převodu. Při troše štěstí dostaneš pěkný text s háčky a čárkami. V o trošku horším případě dostaneš něco, kde je místo českých znaků nějaká divná sekvence, a ty už si nahradíš strojově.

13.7.2010 16:05 Begleiter | skóre: 47 | blog: muj_blog | Doma
Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“

Takto jsem převedl PDF soubor do plain textu:

pdftotext -enc UTF-8 soubor.pdf soubor.txt

Místo znaků s diakritikou jsem dostal divnou sekvenci. Teď zbývá nahradit ty divné znaky správnými znaky s diakritikou. Vypadá to dobře. Díky. Nahrazuju to v geditu.

16.7.2010 08:37 asdf
Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“

prohnal bych to pdf printerem, v output nastaveni misto pdf vybral jpg, tim bych ziskal cely pdf dokument prevedeny do obrazku. vsechny obrazky oznacit, vlozit do ocr programu a za dve minuty neni co resit!

13.7.2010 16:57 Begleiter | skóre: 47 | blog: muj_blog | Doma
Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“

Odpovědět | Sbalit | Link | Blokovat | Admin

Takže řešení je prosté: Nejdřív převést pomocí pdftotext soubor do plain textu: pdftotext -enc UTF-8 soubor.pdf soubor.txt Potom pomocí nějakého nástroje (já použil gedit, ale můžete určitě použít sed apod.) nahradíte "klikyháky" za české znaky s diakritikou.

Založit nové vlákno • Nahoru

Tiskni Sdílej: