abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 12:33 | IT novinky

    Na blogu Raspberry Pi byla představena rozšiřující deska Raspberry Pi AI HAT+ 2 s akcelerátorem Hailo-10 a 8 GB RAM. Na rozdíl od předchozí Raspberry Pi AI HAT+ podporuje generativní AI. Cena desky je 130 dolarů.

    Ladislav Hagara | Komentářů: 2
    dnes 12:11 | Komunita

    Wikipedie slaví 25. výročí svého založení. Vznikla 15. ledna 2001 jako doplňkový projekt k dnes již neexistující encyklopedii Nupedia. Doména wikipedia.org byla zaregistrována 12. ledna 2001. Zítra proběhne v Praze Večer svobodné kultury, který pořádá spolek Wikimedia ČR.

    Ladislav Hagara | Komentářů: 0
    dnes 04:44 | Nová verze

    Po více než dvou letech od vydání předchozí verze 2.12 byla vydána nová stabilní verze 2.14 systémového zavaděče GNU GRUB (GRand Unified Bootloader, Wikipedie). Přehled novinek v souboru NEWS a v aktualizované dokumentaci.

    Ladislav Hagara | Komentářů: 2
    dnes 02:22 | Nová verze

    Google Chrome 144 byl prohlášen za stabilní. Nejnovější stabilní verze 144.0.7559.59 přináší řadu novinek z hlediska uživatelů i vývojářů. Podrobný přehled v poznámkách k vydání. Opraveno bylo 10 bezpečnostních chyb. Vylepšeny byly také nástroje pro vývojáře (YouTube).

    Ladislav Hagara | Komentářů: 4
    dnes 01:55 | Humor

    Microsoft zveřejnil zdrojový kód XAML Studia a uvolnil ho pod MIT licencí. XAML Studio je nástroj ze světa Windows, určený pro tvorbu uživatelského rozhraní aplikací pomocí XAML (Extensible Application Markup Language). Stalo se tak zhruba po osmi letech od prvního prohlášení Microsoftu, že se tento kód chystá zveřejnit.

    NUKE GAZA! 🎆 | Komentářů: 0
    dnes 01:44 | Zajímavý projekt

    TimeCapsule, 'časová kapsle', je jazykový model trénovaný výhradně na datech z určitých míst a časových období, aby se tak napodobila autentická slovní zásoba, způsob vyjadřování a názory dané doby. Na Hugging face jsou k dispozici modely natrénované na historických textech dostupných v oblasti Londýna mezi lety 1800 až 1875.

    NUKE GAZA! 🎆 | Komentářů: 6
    včera 17:55 | Nová verze

    Radicle byl vydán ve verzi 1.6.0 s kódovým jménem Amaryllis. Jedná se o distribuovanou alternativu k softwarům pro spolupráci jako např. GitLab.

    Ladislav Hagara | Komentářů: 0
    včera 13:22 | Upozornění

    Zemřel Scott Adams, tvůrce komiksových stripů Dilbert parodujících pracovní prostředí velké firmy.

    Ladislav Hagara | Komentářů: 4
    včera 13:00 | Nová verze

    Sdružení CZ.NIC vydalo novou verzi Knot Resolveru (6.1.0). Jedná se o první vydanou stabilní verzi 6, která je nyní oficiálně preferovanou a doporučovanou verzí, namísto předešlé verze 5. Více o Knot Resolveru 6 je možné se dočíst přímo v dokumentaci.

    VSladek | Komentářů: 3
    včera 01:22 | Nová verze

    Byl vydán Linux Mint 22.3 s kódovým jménem Zena. Podrobnosti v přehledu novinek a poznámkách k vydání. Vypíchnout lze, že nástroj Systémová hlášení (System Reports) získal mnoho nových funkcí a byl přejmenován na Informace o systému (System Information). Linux Mint 22.3 bude podporován do roku 2029.

    Ladislav Hagara | Komentářů: 1
    Které desktopové prostředí na Linuxu používáte?
     (14%)
     (4%)
     (0%)
     (8%)
     (20%)
     (3%)
     (6%)
     (3%)
     (11%)
     (44%)
    Celkem 445 hlasů
     Komentářů: 12, poslední včera 21:12
    Rozcestník

    Dotaz: Jak náhodně naplnit soubor UTF-8 znaky o různém předem daném počtu zn?

    19.12.2009 21:34 FrantaS | skóre: 12 | Hlučín
    Jak náhodně naplnit soubor UTF-8 znaky o různém předem daném počtu zn?
    Přečteno: 409×
    Chci naučit Tesseract, co nejlépe češtinu.

    Vytvořil jsem soubor s třemi řadami znaků na klávesnici, použil databázi cca 800 tis. slov a rozpoznávání je velmi dobré. Určitě lze ještě vylepšit. Připravím si databázi běžných slov, ale hlavně to chce cvičné stránky plné náhodných znaků s předem daným počtem každého znaku.

    Udělal jsem tedy soubor v UTF-8 kde je na řádku číslo udávající počet opakování následujících znaků, oddělující mezera a znaky. Mezera se mezi potřebnými znaky nevyskytuje. Těchto řádků je dle potřeby. Protože mi zpětné lomítko činí velké problémy, mám zatím v úmyslu řešit až při zápisu do souboru skriptem nebo ručně. Protože lze v dokumentech očekávat znaky jiných jazyků apod., je nutno pracovat s UTF-8. Můj skript načte počet opakování následujících znaků, znaky a spočítá počet znaků k tomuto opakování. Zde jsem narazil na to, že některé znaky byly počítány jakoby dva. To jsem vyřešil pomocí LANG=cs_CZ.UTF-8 ve scriptu.

    Nyní mám v jedné proměnné všechny potřebné znaky v potřebném opakování. Chci je náhodně zpřeházet a uložit do souboru. Když však chci zpracovat proměnnou znak po znaku pomocí cut nebo substr, použité nástroje zase počítají některé znaky jako dva (A možná ještě nevím všechny problémy.)

    Systém mám nastaven na LANG=cs_CZ, unicode nastaveno nemám.

    Chtěl jsem řešit pomocí předem známého počtu opakování (celkový počet znaků) a každý znak naplnit do pole. To pak náhodně procházet, použitý znak uložit do souboru a zrušit prvek pole.

    Poraďte, prosím, jak vyřešit práci s jednotlivými znaky nebo i zcela jiný přístup k celému řešení.
    Ať se nám daří.

    Odpovědi

    20.12.2009 19:25 FrantaS | skóre: 12 | Hlučín
    Rozbalit Rozbalit vše Re: Jak náhodně naplnit soubor UTF-8 znaky o různém předem daném počtu zn?
    Čtení řetězce znak po znaku jsem již vyřešil pomocí:

    Pocet=0
    while read -n 1 Znak; do
    array[$Pocet]=$Znak
    Pocet=$(($Pocet+1))
    done <<<"$Vsechny_nactene_znaky"
    unset array[$Pocet-1]
    
    Ať se nám daří.

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.