abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 10:22 | Upozornění

    Ze systému Slavia pojišťovny uniklo přibližně 150 gigabajtů citlivých dat. Jedná se například o pojistné dokumenty, lékařské záznamy nebo přímou komunikaci s klienty. Za únik může chyba dodavatelské společnosti.

    Ladislav Hagara | Komentářů: 1
    dnes 10:11 | IT novinky

    Sněmovna propustila do dalšího kola projednávání vládní návrh zákona o digitální ekonomice, který má přinést bezpečnější on-line prostředí. Reaguje na evropské nařízení DSA o digitálních službách a upravuje třeba pravidla pro on-line tržiště nebo sociální sítě a má i víc chránit děti.

    Ladislav Hagara | Komentářů: 8
    dnes 09:33 | IT novinky

    Meta převezme sociální síť pro umělou inteligenci (AI) Moltbook. Tvůrci Moltbooku – Matt Schlicht a Ben Parr – se díky dohodě stanou součástí Meta Superintelligence Labs (MSL). Meta MSL založila s cílem sjednotit své aktivity na poli AI a vyvinout takovou umělou inteligenci, která překoná lidské schopnosti v mnoha oblastech. Fungovat by měla ne jako centralizovaný nástroj, ale jako osobní asistent pro každého uživatele.

    Ladislav Hagara | Komentářů: 0
    dnes 00:22 | Nová verze

    Byla vydána betaverze Fedora Linuxu 44 (ChangeSet), tj. poslední zastávka před vydáním finální verze, která je naplánována na úterý 14. dubna.

    Ladislav Hagara | Komentářů: 0
    včera 12:11 | IT novinky

    Open source router Turris Omnia NG Wired je v prodeji. Jedná se o Turris Omnia NG bez Wi-Fi. Je připraven pro zamontování do racku.

    Ladislav Hagara | Komentářů: 6
    včera 11:44 | Pozvánky

    Sníh roztál a roztávají i bastlíři. Žene se na nás celá řada konferencí a seminářů technického rázu. Zajímá vás, jaké? Pak se připojte k 60. Virtuální Bastlírně, tedy k veřejné diskuzi bastlířů, techniků, učitelů i vědců. Jako vždy přijde na přetřes spousta novinek ze světa hardwaru, softwaru i bizáru. Na začátek lze očekávat hardwarová témata, tedy například nový KiCAD 10, nové akcelerátory LLM s nízkou spotřebou, nejvíce fosforeskující

    … více »
    bkralik | Komentářů: 1
    včera 11:22 | Zajímavý článek

    IuRe (Iuridicum Remedium) v rámci programu Digitální svobody zveřejnila analýzu dopadů a efektivity systémů ověřování věku v digitálním prostoru, která srovnává implementace ověřování věku v Austrálii, Velké Británii a Evropské unii.

    |🇵🇸 | Komentářů: 1
    včera 04:22 | Nová verze

    Multiplatformní emulátor terminálu Ghostty byl vydán ve verzi 1.3 (𝕏, Mastodon). Přehled novinek a vylepšení v poznámkách k vydání.

    Ladislav Hagara | Komentářů: 0
    včera 03:55 | Nová verze

    Byla vydána nová verze 14.4 svobodného unixového operačního systému FreeBSD. Podrobný přehled novinek v poznámkách k vydání.

    Ladislav Hagara | Komentářů: 5
    9.3. 23:22 | Nová verze

    Databáze DuckDB (Wikipedie) byla vydána ve verzi 1.5.0. S kódovým názvem Variegata (husice rajská). Přináší řadu vylepšení, včetně nového ergonomičtějšího CLI klienta nebo podporu pro typ VARIANT a vestavěný typ GEOMETRY.

    Ladislav Hagara | Komentářů: 0
    Které desktopové prostředí na Linuxu používáte?
     (16%)
     (6%)
     (0%)
     (12%)
     (29%)
     (2%)
     (5%)
     (2%)
     (12%)
     (25%)
    Celkem 1052 hlasů
     Komentářů: 25, poslední 3.2. 19:50
    Rozcestník
    Štítky: není přiřazen žádný štítek

    Dotaz: cetnost neexistujicich bigramu trigramu

    21.11.2014 10:03 heh
    cetnost neexistujicich bigramu trigramu
    Přečteno: 326×
    Dobry den,
    marne na netu hledam nejakou tabulku s nejmin frekventovanymi(neexistujicimi) bigramy nebo trigramy v ceskem jazyce. Poptreboval bych totiz pro jeden svuj program overovat, zda dane slovo je s urcitou pravdepodobnosti existujici slovo. To znamena odfiltrovat neexistujici trigramy jako zzq, qwx, zrw, ywb, a podobne. Nemate nekdo odkaz na nejakou databazi, ktera by mi v tomhle pomohla. Dekuji.

    Odpovědi

    AraxoN avatar 21.11.2014 10:23 AraxoN | skóre: 47 | blog: slon_v_porcelane | Košice
    Rozbalit Rozbalit vše Re: cetnost neexistujicich bigramu trigramu
    Stiahni si hunspell slovník, z neho vytvor zoznam platných n-gramov. Zoznam neplatných n-gramov potom odvodíš z neho.
    21.11.2014 10:38 heh
    Rozbalit Rozbalit vše Re: cetnost neexistujicich bigramu trigramu
    Jo to me taky napadlo, ale rikal jsem si ze proc vymyslet znovu kolo, kdyz tohle uz musel resit nekdo predemnou. Jinak jeste soucasti tech slov mohou byt i jmena a prijmeni - ty mohou byt nekdy dost neobvykla. Kazdopadne, jestli nejakou uz vytvorenou databazi nenajdu, tak mi asi nic jineho nezbyde.
    Jendа avatar 21.11.2014 20:27 Jendа | skóre: 78 | blog: Jenda | JO70FB
    Rozbalit Rozbalit vše Re: cetnost neexistujicich bigramu trigramu
    Stáhnul bych Wikipedii a těch pár řádků snad už napíšeš. (pokud se ti to nechce stahovat, pustím ti dodaný skript lokálně a dám ti výsledek; skript musí být čitelný dostatečně na to, abych zjistil, že v něm není backdoor)
    21.11.2014 22:36 Radek Miček | skóre: 23 | blog: radekm_blog
    Rozbalit Rozbalit vše Re: cetnost neexistujicich bigramu trigramu
    Poptreboval bych totiz pro jeden svuj program overovat, zda dane slovo je s urcitou pravdepodobnosti existujici slovo.
    Třeba slovo pesokolovec AFAIK neexistuje, ale trigramy v něm patří do existujících slov.
    22.11.2014 08:50 Radovan Garabik
    Rozbalit Rozbalit vše Re: cetnost neexistujicich bigramu trigramu
    Odporúčam sa obrátiť na Český národný korpus, frekvenčný zoznam slov majú a je to spoľahlivejšie ako trigramová metóda na znakoch.

    Ináč https://github.com/decultured/Python-Language-Detector, prípadne v googli "trigram language detector", existujúcich balíčkov je dosť.

    (BTW pomerne slušný českojazykový korpus máme aj u nás, zoznam slov môžem poskytnúť aj ja, znakové trigramy si ale budeš musieť z toho vyrátať sám :-))
    23.11.2014 00:02 heh
    Rozbalit Rozbalit vše Re: cetnost neexistujicich bigramu trigramu
    ten korpus se bude hodit... dekuju
    23.11.2014 15:10 Radovan Garabik
    Rozbalit Rozbalit vše Re: cetnost neexistujicich bigramu trigramu
    http://kassiopeia.juls.savba.sk/~garabik/tmp/cs/

    *-fic* je "beletria", *-all* obsahuje aj texty EU (je teda nadmnožinou *-fic*), je tam teda neprimerane veľa takých termínov. Je to úmyselne s rozlíšením veľkosti písmen.

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.