abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 05:33 | Nová verze

    Open-source citační manažer Zotero (Wikipedie, GitHub) byl vydán v nové major verzi 9. Přehled novinek v příspěvku na blogu.

    Ladislav Hagara | Komentářů: 0
    včera 18:33 | Komunita

    Libre Graphics Meeting 2026, tj. čtyřdenní konference a setkání vývojářů a uživatelů svobodných a otevřených grafických softwarů, proběhne od 22. do 25. dubna v Norimberku. Dění lze sledovat na Mastodonu.

    Ladislav Hagara | Komentářů: 0
    včera 03:11 | Zajímavý software

    Vývojář Alexandre Gomes Gaigalas na GitHubu zveřejnil c89cc.sh, parser a kompilátor jazyka C89 napsaný v pouhém jediném skriptu o přibližně 8000 řádcích čistého bashe (bez dalších externích závislostí), který generuje ELF64 binárky pro x86-64. Jedná se o velmi jednoduchý kompilátor, který nepodporuje direktivy #include a dokonce ani funkci printf (lze použít puts), všechny dostupné deklarace lze nalézt v proměnné _BUILTIN_LIBC na konci skriptu. Skript je volně dostupný pod ISC licencí.

    » FIDESZ🧡! « | Komentářů: 7
    10.4. 23:33 | Nasazení Linuxu

    Francouzská vláda oznámila, že v rámci strategie 'digitální suverenity' zahájí 'přechod od systému Windows k počítačům s operačním systémem Linux' (sa sortie de Windows au profit de postes sous système d'exploitation Linux). DINUM (meziresortní ředitelství pro digitální technologie) požádalo ministerstva, aby do podzimu 2026 vypracovaly konkrétní plány nasazení Linuxu. Francie již dříve migrovala části státní správy na otevřená řešení.

    » FIDESZ🧡! « | Komentářů: 9
    10.4. 05:22 | IT novinky

    Nezisková organizace Electronic Frontier Foundation (EFF) hájící občanské svobody v digitálním světě po téměř 20 letech opouští platformu X (dříve Twitter). Na platformách Bluesky, Mastodon, LinkedIn, Instagram, TikTok, Facebook, Threads a YouTube zůstává.

    Ladislav Hagara | Komentářů: 5
    10.4. 03:33 | Nová verze

    Terminálový textový editor GNU nano byl vydán ve verzi 9.0. Vylepšuje chování horizontálního posouvání pohledu na dlouhé řádky a chování některých klávesových zkratek. Více v seznamu změn.

    |🇵🇸 | Komentářů: 0
    9.4. 19:22 | IT novinky

    Ministerstvo financí ve spolupráci s finanční správou dnes představilo beta verzi aplikace využívající umělou inteligenci pro předvyplnění daňového přiznání. Není třeba přepisovat údaje z různých potvrzení, ani hledat správné řádky, kam údaje napsat. Stačí nahrát dokumenty a využít AI.

    Ladislav Hagara | Komentářů: 8
    9.4. 18:33 | Zajímavý projekt

    Výrobce počítačových periferií Keychron zveřejnil repozitář se schématy šasi klávesnic a myší. Licence je restriktivní, zakazuje většinu komerčních užití a v podstatě jsou tak data vhodná pouze pro výukové účely, hlášení a opravy chyb, případně výrobu vlastního příslušenství.

    |🇵🇸 | Komentářů: 5
    9.4. 18:22 | Nová verze

    Správce balíčků APT, používaný v Debianu a odvozených distribucích, byl vydán ve verzi 3.2 (seznam změn). Mezi novinkami figurují nové příkazy pro práci s historií, včetně vracení transakcí.

    |🇵🇸 | Komentářů: 0
    9.4. 14:33 | IT novinky

    Společnost Anthropic oznámila Projekt Glasswing a s ní související AI model Claude Mythos Preview. Jedná se o iniciativu zaměřenou na kybernetickou bezpečnost, do které se zapojily velké technologické společnosti Amazon Web Services, Anthropic, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA a Palo Alto Networks. Anthropic věří, že nový AI model Claude Mythos Preview dokáže

    … více »
    Ladislav Hagara | Komentářů: 2
    Které desktopové prostředí na Linuxu používáte?
     (14%)
     (8%)
     (1%)
     (12%)
     (30%)
     (3%)
     (6%)
     (2%)
     (14%)
     (24%)
    Celkem 1273 hlasů
     Komentářů: 30, poslední 3.4. 20:20
    Rozcestník

    Jak na dokument s velkým množstvím „překlepů“

    13.7.2010 11:07 | Ostatní

    Převedl jsem jeden PDF soubor do prostého textu pomocí pdftotext. Problém je, že výsledný soubor obsahuje velké (hodně velké) množství „překlepů“ — tedy spíš ne pravopisné chyby, ale chyby typu: onemocnla (onemocněla), pláem (pláčem), nkdy (někdy)... Jde tedy nejčastěji o chybějící písmenka s diakritikou.

    No a já uvažuju, jak se co nepohodlněji dostat k dokumentu, který oproti původnímu obsahuje minimum chyb a aby to bylo pokud možno automatické, aby to šlo jenom s minimální námahou.

    Jako první možnost mě napadl aspell, jenže u něj jsem nenašel parametry, jak opravu zautomatizovat (v mém případě nutnost). Musel bych tedy mockrát mačkat klávesy, což nechci.

    A u aspellu jsem skončil, protože jsem nenašel (špatně jsem hledal?) jiný nástroj, který by dovedl to, co aspell nedovede (tedy zautomatizovat opravu „překlepů“).

    Budu moc rád, pokud mě aspoň navedete, jak tento problém vyřešit. Předem díky.

           

    Hodnocení: 100 %

            špatnédobré        

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    Komentáře

    Vložit další komentář

    13.7.2010 12:40 ____ | skóre: 15 | blog: _
    Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“

    Cožpak se nedá mačkání kláves zautomatizovat, vyberu-li to nejhloupější řešení?

    Jinak mám dojem, že je aspell knihovna, takže bys si snad mohl třeba v nějakém Pythonu nebo kdovíčem napsat skript.

    Nepředpokládám, že by naprogramování něčeho takového stálo moc úsilí i relativní neprogramátory.

    13.7.2010 13:14 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“

    Jinak mám dojem, že je aspell knihovna, takže bys si snad mohl třeba v nějakém Pythonu nebo kdovíčem napsat skript.

    Nepředpokládám, že by naprogramování něčeho takového stálo moc úsilí i relativní neprogramátory.

    Ano, toto je řešení. Díky. Stejně jsem se naučit aspoň základy Pythonu chystal. Určitě by šel použít i Perl, ale Python bude asi pro začátečníka jako jsem já vhodnější.

    13.7.2010 13:38 Zdenek
    Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“
    Chapu to tak ze puvodni PDF je v poradku? Jestli ano, pak jdete naprosto nesmyslnou cestou.
    13.7.2010 13:40 ____ | skóre: 15 | blog: _
    Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“
    +1, to jsem v textu nějak přehlédl.
    13.7.2010 14:04 R
    Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“
    Mnohe PDF nie su vporiadku, len to tak vyzera. Niektore programy pri vytvarani PDF diakritiku znicia - nahradia bitmapami, skladaju z roznych divnych znakov a pod.
    13.7.2010 14:14 CEST
    Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“
    No, chtel jsem napsat, ze resenim je spravne nastaveni znakove sady/kodovani pri konvertovani.

    Nejsem si jistej, ale pokud by neco nahrazovalo v PDF cesky znaky bitmapama, tak by to musel byt taky docela slozitej algoritmus, protoze je jednodussi v PDF vygenerovat cesky text pomoci znaku (v jakymkoliv kodovani) nez zjistovat font, generovat bitmatu v tomtu fontu pro prislusny cesky znak, puvodni cesky znak nahradit stejne sirokou mezerou a pak propocitavat umisteni tehle mezery, resp. umisteni toho ceskeho bitmap znaku, aby bylo to pismeno spravne vertikalne a horizontalne usazene. Takhle by to snad naprogramoval jenom idiot.

    Spis tam bude opravdu problem s kodovanim. Zatimco pdftotext pouziva kodovani "A", PDF je kodovani pomoci "B". Zkusil by se zamerit na tohle a hledat na google.
    13.7.2010 14:47 Jirka P
    Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“
    Nejsem si jistej, ale pokud by neco nahrazovalo v PDF cesky znaky bitmapama, tak by to musel byt taky docela slozitej algoritmus
    Fakt ne, rozhodně ne složitější, než jak se to renderuje na obrazovku.
    Nejsem si jistej, ale pokud by neco nahrazovalo v PDF cesky znaky bitmapama, tak by to musel byt taky docela slozitej algoritmus
    Vzhledem k tomu, že PDF je prezentační formát, dělají to tak všichni, kterým záleží na přesném zobrazení toho, co si přejí. Spíš než na bitmapy se to převádí na křivky (na bitmapy jsou převedené spíš dokumenty zkonvertované z PS s bitmapovými fonty), ale z hlediska kopírování to vyjde nastejno. Často je to tak, že PDF v sobě má něco jako "font", ale v kódování, které je ad hoc vytvořeno pro daný dokument. Vizte např. tento dokument a zkuste si s ním pohrát.
    13.7.2010 14:58 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“
    Spis tam bude opravdu problem s kodovanim. Zatimco pdftotext pouziva kodovani "A", PDF je kodovani pomoci "B". Zkusil by se zamerit na tohle a hledat na google.

    Problém je ten, že u pdftotext lze nastavit pouze výstupní kódávní pomocí -enc, ale vstupní nějak detekuje sám.

    13.7.2010 15:12 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“

    Původní PDF je v pořádku. Jakou cestou bych teda měl jít?

    13.7.2010 15:42 Tomáš
    Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“
    Pohrej si s nastavením kódování při převodu. Při troše štěstí dostaneš pěkný text s háčky a čárkami. V o trošku horším případě dostaneš něco, kde je místo českých znaků nějaká divná sekvence, a ty už si nahradíš strojově.
    13.7.2010 16:05 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“

    Takto jsem převedl PDF soubor do plain textu:

    pdftotext -enc UTF-8 soubor.pdf soubor.txt
    

    Místo znaků s diakritikou jsem dostal divnou sekvenci. Teď zbývá nahradit ty divné znaky správnými znaky s diakritikou. Vypadá to dobře. Díky. Nahrazuju to v geditu.

    16.7.2010 08:37 asdf
    Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“
    prohnal bych to pdf printerem, v output nastaveni misto pdf vybral jpg, tim bych ziskal cely pdf dokument prevedeny do obrazku. vsechny obrazky oznacit, vlozit do ocr programu a za dve minuty neni co resit!
    13.7.2010 16:57 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“

    Takže řešení je prosté: Nejdřív převést pomocí pdftotext soubor do plain textu: pdftotext -enc UTF-8 soubor.pdf soubor.txt Potom pomocí nějakého nástroje (já použil gedit, ale můžete určitě použít sed apod.) nahradíte "klikyháky" za české znaky s diakritikou.

    Založit nové vláknoNahoru

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.