abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    včera 07:33 | Komunita

    O víkendu probíhá konference OpenAlt 2025 (Stream). Na programu je spousta zajímavých přednášek. Pokud jste v Brně, stavte se. Vstup zdarma.

    Ladislav Hagara | Komentářů: 0
    včera 00:55 | IT novinky

    Josef Průša představil novou velkoformátovou uzavřenou CoreXY 3D tiskárnu Prusa CORE One L a nový open source standard chytrých cívek OpenPrintTag i s novou přepracovanou špulkou.

    Ladislav Hagara | Komentářů: 7
    31.10. 18:33 | IT novinky

    Na GOG.com běží Autumn Sale. Při té příležitosti je zdarma hororová počítačová hra STASIS (ProtonDB: Platinum).

    Ladislav Hagara | Komentářů: 0
    31.10. 13:22 | Komunita

    Ubuntu 25.10 má nově balíčky sestavené také pro úroveň mikroarchitektury x86-64-v3 (amd64v3).

    Ladislav Hagara | Komentářů: 8
    31.10. 01:22 | Nová verze

    Byla vydána verze 1.91.0 programovacího jazyka Rust (Wikipedie). Podrobnosti v poznámkách k vydání. Vyzkoušet Rust lze například na stránce Rust by Example.

    Ladislav Hagara | Komentářů: 0
    31.10. 00:11 | IT novinky

    Ministerstvo průmyslu a obchodu vyhlásilo druhou veřejnou soutěž v programu TWIST, který podporuje výzkum, vývoj a využití umělé inteligence v podnikání. Firmy mohou získat až 30 milionů korun na jeden projekt zaměřený na nové produkty či inovaci podnikových procesů. Návrhy projektů lze podávat od 31. října do 17. prosince 2025. Celková alokace výzvy činí 800 milionů korun.

    Ladislav Hagara | Komentářů: 5
    30.10. 23:44 | Komunita

    Google v srpnu oznámil, že na „certifikovaných“ zařízeních s Androidem omezí instalaci aplikací (včetně „sideloadingu“) tak, že bude vyžadovat, aby aplikace byly podepsány centrálně registrovanými vývojáři s ověřenou identitou. Iniciativa Keep Android Open se to snaží zvrátit. Podepsat lze otevřený dopis adresovaný Googlu nebo petici na Change.org.

    Ladislav Hagara | Komentářů: 0
    30.10. 15:22 | Nová verze

    Byla vydána nová verze 18 integrovaného vývojového prostředí (IDE) Qt Creator. S podporou Development Containers. Podrobný přehled novinek v changelogu.

    Ladislav Hagara | Komentářů: 2
    30.10. 12:55 | Nová verze

    Cursor (Wikipedie) od společnosti Anysphere byl vydán ve verzi 2.0. Jedná se o multiplatformní proprietární editor kódů s podporou AI (vibe coding).

    Ladislav Hagara | Komentářů: 1
    30.10. 02:55 | Nová verze

    Google Chrome 142 byl prohlášen za stabilní. Nejnovější stabilní verze 142.0.7444.59 přináší řadu novinek z hlediska uživatelů i vývojářů. Podrobný přehled v poznámkách k vydání. Opraveno bylo 20 bezpečnostních chyb. Za nejvážnější z nich bylo vyplaceno 50 000 dolarů. Vylepšeny byly také nástroje pro vývojáře.

    Ladislav Hagara | Komentářů: 0
    Jaké řešení používáte k vývoji / práci?
     (36%)
     (48%)
     (19%)
     (19%)
     (23%)
     (16%)
     (20%)
     (16%)
     (17%)
    Celkem 297 hlasů
     Komentářů: 15, poslední dnes 08:25
    Rozcestník
    Štítky: není přiřazen žádný štítek

    Dotaz: cetnost neexistujicich bigramu trigramu

    21.11.2014 10:03 heh
    cetnost neexistujicich bigramu trigramu
    Přečteno: 313×
    Dobry den,
    marne na netu hledam nejakou tabulku s nejmin frekventovanymi(neexistujicimi) bigramy nebo trigramy v ceskem jazyce. Poptreboval bych totiz pro jeden svuj program overovat, zda dane slovo je s urcitou pravdepodobnosti existujici slovo. To znamena odfiltrovat neexistujici trigramy jako zzq, qwx, zrw, ywb, a podobne. Nemate nekdo odkaz na nejakou databazi, ktera by mi v tomhle pomohla. Dekuji.

    Odpovědi

    AraxoN avatar 21.11.2014 10:23 AraxoN | skóre: 47 | blog: slon_v_porcelane | Košice
    Rozbalit Rozbalit vše Re: cetnost neexistujicich bigramu trigramu
    Stiahni si hunspell slovník, z neho vytvor zoznam platných n-gramov. Zoznam neplatných n-gramov potom odvodíš z neho.
    21.11.2014 10:38 heh
    Rozbalit Rozbalit vše Re: cetnost neexistujicich bigramu trigramu
    Jo to me taky napadlo, ale rikal jsem si ze proc vymyslet znovu kolo, kdyz tohle uz musel resit nekdo predemnou. Jinak jeste soucasti tech slov mohou byt i jmena a prijmeni - ty mohou byt nekdy dost neobvykla. Kazdopadne, jestli nejakou uz vytvorenou databazi nenajdu, tak mi asi nic jineho nezbyde.
    Jendа avatar 21.11.2014 20:27 Jendа | skóre: 78 | blog: Jenda | JO70FB
    Rozbalit Rozbalit vše Re: cetnost neexistujicich bigramu trigramu
    Stáhnul bych Wikipedii a těch pár řádků snad už napíšeš. (pokud se ti to nechce stahovat, pustím ti dodaný skript lokálně a dám ti výsledek; skript musí být čitelný dostatečně na to, abych zjistil, že v něm není backdoor)
    21.11.2014 22:36 Radek Miček | skóre: 23 | blog: radekm_blog
    Rozbalit Rozbalit vše Re: cetnost neexistujicich bigramu trigramu
    Poptreboval bych totiz pro jeden svuj program overovat, zda dane slovo je s urcitou pravdepodobnosti existujici slovo.
    Třeba slovo pesokolovec AFAIK neexistuje, ale trigramy v něm patří do existujících slov.
    22.11.2014 08:50 Radovan Garabik
    Rozbalit Rozbalit vše Re: cetnost neexistujicich bigramu trigramu
    Odporúčam sa obrátiť na Český národný korpus, frekvenčný zoznam slov majú a je to spoľahlivejšie ako trigramová metóda na znakoch.

    Ináč https://github.com/decultured/Python-Language-Detector, prípadne v googli "trigram language detector", existujúcich balíčkov je dosť.

    (BTW pomerne slušný českojazykový korpus máme aj u nás, zoznam slov môžem poskytnúť aj ja, znakové trigramy si ale budeš musieť z toho vyrátať sám :-))
    23.11.2014 00:02 heh
    Rozbalit Rozbalit vše Re: cetnost neexistujicich bigramu trigramu
    ten korpus se bude hodit... dekuju
    23.11.2014 15:10 Radovan Garabik
    Rozbalit Rozbalit vše Re: cetnost neexistujicich bigramu trigramu
    http://kassiopeia.juls.savba.sk/~garabik/tmp/cs/

    *-fic* je "beletria", *-all* obsahuje aj texty EU (je teda nadmnožinou *-fic*), je tam teda neprimerane veľa takých termínov. Je to úmyselne s rozlíšením veľkosti písmen.

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.