abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×

    dnes 11:55 | IT novinky

    Byly rozdány Ceny Velkého bratra (Big Brother Awards) za rok 2022 pro největší slídily pořádané nevládní organizací Iuridicum Remedium. Dlouhodobý slídil: Microsoft. Firemní slídil: Seznam. Úřední slídil: Nejvyšší správní soud. Výrok Velkého bratra: Marian Jurečka. Pozitivní cena: NoLog.

    Ladislav Hagara | Komentářů: 4
    dnes 11:11 | Zajímavý projekt

    Byla představena online vzdělávací platforma Ada Computer Science pro učitele, studenty a kohokoli, kdo se zajímá o informatiku. Stojí za ní Raspberry Pi Foundation a Univerzita v Cambridgi.

    Ladislav Hagara | Komentářů: 0
    dnes 09:11 | Bezpečnostní upozornění

    GitHub má nový RSA SSH klíč. Předchozí soukromý klíč byl krátce vystaven na GitHubu.

    Ladislav Hagara | Komentářů: 0
    dnes 08:55 | IT novinky

    Společnost Framework Computer představila (YouTube) nové modulární notebooky: Laptop 13 s Intel Core nebo AMD Ryzen a Laptop 16 (YouTube).

    Ladislav Hagara | Komentářů: 0
    včera 19:33 | Nová verze

    Bylo vydáno Ubuntu 20.04.6 LTS, tj. šesté opravné vydání Ubuntu 20.04 LTS s kódovým názvem Focal Fossa. Přehled novinek v poznámkách k vydání a v přehledu změn.

    Ladislav Hagara | Komentářů: 0
    včera 14:44 | IT novinky

    Připojit neznámý USB flash disk do počítače může být nebezpečné. Dokonce může jít i o život. Někdo rozeslal ekvádorským novinářům USB flash disky, které po připojení do počítače explodují [BBC, Twitter].

    Ladislav Hagara | Komentářů: 2
    včera 13:33 | Nová verze

    Byla vydána nová verze 7.4 open source virtualizační platformy Proxmox VE (Proxmox Virtual Environment, Wikipedie) založené na Debianu. Přehled novinek v poznámkách k vydání a v informačním videu.

    Ladislav Hagara | Komentářů: 0
    22.3. 21:55 | Nová verze

    Byla vydána verze 11.0 s kódovým jménem Aramo linuxové distribuce Trisquel GNU/Linux. Založena je na Ubuntu 22.04 LTS a podporována bude do roku 2027. Trisquel patří mezi svobodné distribuce doporučované Nadací pro svobodný software (FSF).

    Ladislav Hagara | Komentářů: 0
    22.3. 16:55 | IT novinky

    Mozilla založila startup Mozilla.ai a vložila do něj 30 milionů dolarů. Cílem je vývoj důvěryhodné, nezávislé a open source AI.

    Ladislav Hagara | Komentářů: 2
    22.3. 16:33 | Nová verze

    Po půl roce vývoje od vydání verze 43 bylo vydáno GNOME 44 s kódovým názvem Kuala Lumpur. Přehled novinek i s náhledy v poznámkách k vydání a v novinkách pro vývojáře. Krátké představení na YouTube.

    Ladislav Hagara | Komentářů: 46
    Používáte WSL (Windows Subsystem for Linux)?
     (74%)
     (12%)
     (4%)
     (10%)
    Celkem 307 hlasů
     Komentářů: 4, poslední dnes 06:42
    Rozcestník


    Dotaz: Jak náhodně naplnit soubor UTF-8 znaky o různém předem daném počtu zn?

    19.12.2009 21:34 FrantaS | skóre: 12 | Hlučín
    Jak náhodně naplnit soubor UTF-8 znaky o různém předem daném počtu zn?
    Přečteno: 341×
    Chci naučit Tesseract, co nejlépe češtinu.

    Vytvořil jsem soubor s třemi řadami znaků na klávesnici, použil databázi cca 800 tis. slov a rozpoznávání je velmi dobré. Určitě lze ještě vylepšit. Připravím si databázi běžných slov, ale hlavně to chce cvičné stránky plné náhodných znaků s předem daným počtem každého znaku.

    Udělal jsem tedy soubor v UTF-8 kde je na řádku číslo udávající počet opakování následujících znaků, oddělující mezera a znaky. Mezera se mezi potřebnými znaky nevyskytuje. Těchto řádků je dle potřeby. Protože mi zpětné lomítko činí velké problémy, mám zatím v úmyslu řešit až při zápisu do souboru skriptem nebo ručně. Protože lze v dokumentech očekávat znaky jiných jazyků apod., je nutno pracovat s UTF-8. Můj skript načte počet opakování následujících znaků, znaky a spočítá počet znaků k tomuto opakování. Zde jsem narazil na to, že některé znaky byly počítány jakoby dva. To jsem vyřešil pomocí LANG=cs_CZ.UTF-8 ve scriptu.

    Nyní mám v jedné proměnné všechny potřebné znaky v potřebném opakování. Chci je náhodně zpřeházet a uložit do souboru. Když však chci zpracovat proměnnou znak po znaku pomocí cut nebo substr, použité nástroje zase počítají některé znaky jako dva (A možná ještě nevím všechny problémy.)

    Systém mám nastaven na LANG=cs_CZ, unicode nastaveno nemám.

    Chtěl jsem řešit pomocí předem známého počtu opakování (celkový počet znaků) a každý znak naplnit do pole. To pak náhodně procházet, použitý znak uložit do souboru a zrušit prvek pole.

    Poraďte, prosím, jak vyřešit práci s jednotlivými znaky nebo i zcela jiný přístup k celému řešení.
    Ať se nám daří.

    Odpovědi

    20.12.2009 19:25 FrantaS | skóre: 12 | Hlučín
    Rozbalit Rozbalit vše Re: Jak náhodně naplnit soubor UTF-8 znaky o různém předem daném počtu zn?
    Čtení řetězce znak po znaku jsem již vyřešil pomocí:

    Pocet=0
    while read -n 1 Znak; do
    array[$Pocet]=$Znak
    Pocet=$(($Pocet+1))
    done <<<"$Vsechny_nactene_znaky"
    unset array[$Pocet-1]
    
    Ať se nám daří.

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.