abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 12:11 | Nová verze

    Iced, tj. multiplatformní GUI knihovna pro Rust, byla vydána ve verzi 0.14.0.

    Ladislav Hagara | Komentářů: 1
    dnes 05:22 | Komunita

    FEX, tj. open source emulátor umožňující spouštět aplikace pro x86 a x86_64 na architektuře ARM64, byl vydán ve verzi 2512. Před pár dny FEX oslavil sedmé narozeniny. Hlavní vývojář FEXu Ryan Houdek v oznámení poděkoval společnosti Valve za podporu. Pierre-Loup Griffais z Valve, jeden z architektů stojících za SteamOS a Steam Deckem, v rozhovoru pro The Verge potvrdil, že FEX je od svého vzniku sponzorován společností Valve.

    Ladislav Hagara | Komentářů: 0
    dnes 03:22 | Nová verze

    Byla vydána nová verze 2.24 svobodného video editoru Flowblade (GitHub, Wikipedie). Přehled novinek v poznámkách k vydání. Videoukázky funkcí Flowblade na Vimeu. Instalovat lze také z Flathubu.

    Ladislav Hagara | Komentářů: 0
    včera 15:11 | IT novinky

    Společnost Proton AG stojící za Proton Mailem a dalšími službami přidala do svého portfolia online tabulky Proton Sheets v Proton Drive.

    Ladislav Hagara | Komentářů: 1
    6.12. 15:55 | Komunita

    O víkendu (15:00 až 23:00) probíha EmacsConf 2025, tj. online konference vývojářů a uživatelů editoru GNU Emacs. Sledovat ji lze na stránkách konference. Záznamy budou k dispozici přímo z programu.

    Ladislav Hagara | Komentářů: 0
    6.12. 15:44 | Komunita

    Provozovatel internetové encyklopedie Wikipedia jedná s velkými technologickými firmami o uzavření dohod podobných té, kterou má s Googlem. Snaží se tak zpeněžit rostoucí závislost firem zabývajících se umělou inteligencí (AI) na svém obsahu. Firmy využívají volně dostupná data z Wikipedie k trénování jazykových modelů, což zvyšuje náklady, které musí nezisková organizace provozující Wikipedii sama nést. Automatické programy

    … více »
    Ladislav Hagara | Komentářů: 28
    6.12. 15:22 | IT novinky

    Evropská komise obvinila síť 𝕏 z porušení unijních pravidel, konkrétně nařízení Evropské unie o digitálních službách (DSA). Vyměřila jí za to pokutu 120 milionů eur (2,9 miliardy Kč). Pokuta je podle názoru amerického ministra zahraničí útokem zahraničních vlád na americký lid. K pokutě se vyjádřil i americký viceprezident: „EU by měla podporovat svobodu projevu, a ne útočit na americké společnosti kvůli nesmyslům“.

    Ladislav Hagara | Komentářů: 25
    5.12. 17:11 | IT novinky

    Společnost Jolla spustila kampaň na podporu svého nového telefonu Jolla Phone se Sailfish OS. Dodání je plánováno na první polovinu příštího roku. Pokud bude alespoň 2 000 zájemců. Záloha na telefon je 99 €. Cena telefonu v rámci kampaně je 499 €.

    Ladislav Hagara | Komentářů: 30
    5.12. 15:11 | IT novinky

    Netflix kupuje Warner Bros. včetně jejích filmových a televizních studií HBO Max a HBO. Za 72 miliard dolarů (asi 1,5 bilionu korun).

    Ladislav Hagara | Komentářů: 2
    5.12. 14:11 | IT novinky

    V Las Vegas dnes končí pětidenní konference AWS re:Invent 2025. Společnost Amazon Web Services (AWS) na ní představila celou řadu novinek. Vypíchnout lze 192jádrový CPU Graviton5 nebo AI chip Trainium3.

    Ladislav Hagara | Komentářů: 0
    Jaké řešení používáte k vývoji / práci?
     (34%)
     (48%)
     (19%)
     (17%)
     (22%)
     (15%)
     (24%)
     (16%)
     (18%)
    Celkem 440 hlasů
     Komentářů: 18, poslední 2.12. 18:34
    Rozcestník
    Štítky: není přiřazen žádný štítek


    Vložit další komentář
    13.7.2010 12:40 ____ | skóre: 15 | blog: _
    Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“

    Cožpak se nedá mačkání kláves zautomatizovat, vyberu-li to nejhloupější řešení?

    Jinak mám dojem, že je aspell knihovna, takže bys si snad mohl třeba v nějakém Pythonu nebo kdovíčem napsat skript.

    Nepředpokládám, že by naprogramování něčeho takového stálo moc úsilí i relativní neprogramátory.

    13.7.2010 13:14 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“

    Jinak mám dojem, že je aspell knihovna, takže bys si snad mohl třeba v nějakém Pythonu nebo kdovíčem napsat skript.

    Nepředpokládám, že by naprogramování něčeho takového stálo moc úsilí i relativní neprogramátory.

    Ano, toto je řešení. Díky. Stejně jsem se naučit aspoň základy Pythonu chystal. Určitě by šel použít i Perl, ale Python bude asi pro začátečníka jako jsem já vhodnější.

    13.7.2010 13:38 Zdenek
    Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“
    Chapu to tak ze puvodni PDF je v poradku? Jestli ano, pak jdete naprosto nesmyslnou cestou.
    13.7.2010 13:40 ____ | skóre: 15 | blog: _
    Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“
    +1, to jsem v textu nějak přehlédl.
    13.7.2010 14:04 R
    Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“
    Mnohe PDF nie su vporiadku, len to tak vyzera. Niektore programy pri vytvarani PDF diakritiku znicia - nahradia bitmapami, skladaju z roznych divnych znakov a pod.
    13.7.2010 14:14 CEST
    Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“
    No, chtel jsem napsat, ze resenim je spravne nastaveni znakove sady/kodovani pri konvertovani.

    Nejsem si jistej, ale pokud by neco nahrazovalo v PDF cesky znaky bitmapama, tak by to musel byt taky docela slozitej algoritmus, protoze je jednodussi v PDF vygenerovat cesky text pomoci znaku (v jakymkoliv kodovani) nez zjistovat font, generovat bitmatu v tomtu fontu pro prislusny cesky znak, puvodni cesky znak nahradit stejne sirokou mezerou a pak propocitavat umisteni tehle mezery, resp. umisteni toho ceskeho bitmap znaku, aby bylo to pismeno spravne vertikalne a horizontalne usazene. Takhle by to snad naprogramoval jenom idiot.

    Spis tam bude opravdu problem s kodovanim. Zatimco pdftotext pouziva kodovani "A", PDF je kodovani pomoci "B". Zkusil by se zamerit na tohle a hledat na google.
    13.7.2010 14:47 Jirka P
    Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“
    Nejsem si jistej, ale pokud by neco nahrazovalo v PDF cesky znaky bitmapama, tak by to musel byt taky docela slozitej algoritmus
    Fakt ne, rozhodně ne složitější, než jak se to renderuje na obrazovku.
    Nejsem si jistej, ale pokud by neco nahrazovalo v PDF cesky znaky bitmapama, tak by to musel byt taky docela slozitej algoritmus
    Vzhledem k tomu, že PDF je prezentační formát, dělají to tak všichni, kterým záleží na přesném zobrazení toho, co si přejí. Spíš než na bitmapy se to převádí na křivky (na bitmapy jsou převedené spíš dokumenty zkonvertované z PS s bitmapovými fonty), ale z hlediska kopírování to vyjde nastejno. Často je to tak, že PDF v sobě má něco jako "font", ale v kódování, které je ad hoc vytvořeno pro daný dokument. Vizte např. tento dokument a zkuste si s ním pohrát.
    13.7.2010 14:58 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“
    Spis tam bude opravdu problem s kodovanim. Zatimco pdftotext pouziva kodovani "A", PDF je kodovani pomoci "B". Zkusil by se zamerit na tohle a hledat na google.

    Problém je ten, že u pdftotext lze nastavit pouze výstupní kódávní pomocí -enc, ale vstupní nějak detekuje sám.

    13.7.2010 15:12 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“

    Původní PDF je v pořádku. Jakou cestou bych teda měl jít?

    13.7.2010 15:42 Tomáš
    Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“
    Pohrej si s nastavením kódování při převodu. Při troše štěstí dostaneš pěkný text s háčky a čárkami. V o trošku horším případě dostaneš něco, kde je místo českých znaků nějaká divná sekvence, a ty už si nahradíš strojově.
    13.7.2010 16:05 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“

    Takto jsem převedl PDF soubor do plain textu:

    pdftotext -enc UTF-8 soubor.pdf soubor.txt
    

    Místo znaků s diakritikou jsem dostal divnou sekvenci. Teď zbývá nahradit ty divné znaky správnými znaky s diakritikou. Vypadá to dobře. Díky. Nahrazuju to v geditu.

    16.7.2010 08:37 asdf
    Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“
    prohnal bych to pdf printerem, v output nastaveni misto pdf vybral jpg, tim bych ziskal cely pdf dokument prevedeny do obrazku. vsechny obrazky oznacit, vlozit do ocr programu a za dve minuty neni co resit!
    13.7.2010 16:57 Begleiter | skóre: 47 | blog: muj_blog | Doma
    Rozbalit Rozbalit vše Re: Jak na dokument s velkým množstvím „překlepů“

    Takže řešení je prosté: Nejdřív převést pomocí pdftotext soubor do plain textu: pdftotext -enc UTF-8 soubor.pdf soubor.txt Potom pomocí nějakého nástroje (já použil gedit, ale můžete určitě použít sed apod.) nahradíte "klikyháky" za české znaky s diakritikou.

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.