abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 04:55 | IT novinky

    Společnost Pebble představila (YouTube) prsten s tlačítkem a mikrofonem Pebble Index 01 pro rychlé nahrávání hlasových poznámek. Prsten lze předobjednat za 75 dolarů.

    Ladislav Hagara | Komentářů: 3
    dnes 04:22 | IT novinky

    Společnost JetBrains v listopadu 2021 představila nové IDE s názvem Fleet. Tento týden oznámila jeho konec. Od 22. prosince 2025 již nebude možné Fleet stáhnout.

    Ladislav Hagara | Komentářů: 1
    včera 21:22 | Nová verze

    Byl vydán Mozilla Firefox 146.0. Přehled novinek v poznámkách k vydání a poznámkách k vydání pro vývojáře. Řešeny jsou rovněž bezpečnostní chyby. Nový Firefox 146 bude brzy k dispozici také na Flathubu a Snapcraftu.

    Ladislav Hagara | Komentářů: 0
    včera 17:00 | IT novinky

    Před rokem převzala Digitální a informační agentura (DIA) vlastnictví a provoz jednotné státní domény gov.cz. Nyní spustila samoobslužný portál, který umožňuje orgánům veřejné moci snadno registrovat nové domény státní správy pod doménu gov.cz nebo spravovat ty stávající. Proces nové registrace, který dříve trval 30 dní, se nyní zkrátil na několik minut.

    Ladislav Hagara | Komentářů: 7
    včera 11:33 | IT novinky

    IBM kupuje za 11 miliard USD (229,1 miliardy Kč) firmu Confluent zabývající se datovou infrastrukturou. Posílí tak svoji nabídku cloudových služeb a využije růstu poptávky po těchto službách, který je poháněný umělou inteligencí.

    Ladislav Hagara | Komentářů: 0
    včera 01:55 | IT novinky

    Nejvyšší správní soud (NSS) podruhé zrušil pokutu za únik zákaznických údajů z e-shopu Mall.cz. Incidentem se musí znovu zabývat Úřad pro ochranu osobních údajů (ÚOOÚ). Samotný únik ještě neznamená, že správce dat porušil svou povinnost zajistit jejich bezpečnost, plyne z rozsudku dočasně zpřístupněného na úřední desce. Úřad musí vždy posoudit, zda byla přijatá opatření přiměřená povaze rizik, stavu techniky a nákladům.

    Ladislav Hagara | Komentářů: 11
    8.12. 18:44 | Komunita

    Organizace Free Software Foundation Europe (FSFE) zrušila svůj účet na 𝕏 (Twitter) s odůvodněním: "To, co mělo být původně místem pro dialog a výměnu informací, se proměnilo v centralizovanou arénu nepřátelství, dezinformací a ziskem motivovaného řízení, což je daleko od ideálů svobody, za nimiž stojíme". FSFE je aktivní na Mastodonu.

    Ladislav Hagara | Komentářů: 33
    8.12. 17:55 | IT novinky

    Paramount nabízí za celý Warner Bros. Discovery 30 USD na akcii, tj. celkově o 18 miliard USD více než nabízí Netflix. V hotovosti.

    Ladislav Hagara | Komentářů: 3
    8.12. 13:22 | IT novinky

    Nájemný botnet Aisuru prolomil další "rekord". DDoS útok na Cloudflare dosáhl 29,7 Tbps. Aisuru je tvořený až čtyřmi miliony kompromitovaných zařízení.

    Ladislav Hagara | Komentářů: 6
    8.12. 12:11 | Nová verze

    Iced, tj. multiplatformní GUI knihovna pro Rust, byla vydána ve verzi 0.14.0.

    Ladislav Hagara | Komentářů: 4
    Jaké řešení používáte k vývoji / práci?
     (34%)
     (48%)
     (19%)
     (17%)
     (22%)
     (15%)
     (24%)
     (16%)
     (18%)
    Celkem 450 hlasů
     Komentářů: 18, poslední 2.12. 18:34
    Rozcestník
    Štítky: není přiřazen žádný štítek

    Dotaz: cetnost neexistujicich bigramu trigramu

    21.11.2014 10:03 heh
    cetnost neexistujicich bigramu trigramu
    Přečteno: 324×
    Dobry den,
    marne na netu hledam nejakou tabulku s nejmin frekventovanymi(neexistujicimi) bigramy nebo trigramy v ceskem jazyce. Poptreboval bych totiz pro jeden svuj program overovat, zda dane slovo je s urcitou pravdepodobnosti existujici slovo. To znamena odfiltrovat neexistujici trigramy jako zzq, qwx, zrw, ywb, a podobne. Nemate nekdo odkaz na nejakou databazi, ktera by mi v tomhle pomohla. Dekuji.

    Odpovědi

    AraxoN avatar 21.11.2014 10:23 AraxoN | skóre: 47 | blog: slon_v_porcelane | Košice
    Rozbalit Rozbalit vše Re: cetnost neexistujicich bigramu trigramu
    Stiahni si hunspell slovník, z neho vytvor zoznam platných n-gramov. Zoznam neplatných n-gramov potom odvodíš z neho.
    21.11.2014 10:38 heh
    Rozbalit Rozbalit vše Re: cetnost neexistujicich bigramu trigramu
    Jo to me taky napadlo, ale rikal jsem si ze proc vymyslet znovu kolo, kdyz tohle uz musel resit nekdo predemnou. Jinak jeste soucasti tech slov mohou byt i jmena a prijmeni - ty mohou byt nekdy dost neobvykla. Kazdopadne, jestli nejakou uz vytvorenou databazi nenajdu, tak mi asi nic jineho nezbyde.
    Jendа avatar 21.11.2014 20:27 Jendа | skóre: 78 | blog: Jenda | JO70FB
    Rozbalit Rozbalit vše Re: cetnost neexistujicich bigramu trigramu
    Stáhnul bych Wikipedii a těch pár řádků snad už napíšeš. (pokud se ti to nechce stahovat, pustím ti dodaný skript lokálně a dám ti výsledek; skript musí být čitelný dostatečně na to, abych zjistil, že v něm není backdoor)
    21.11.2014 22:36 Radek Miček | skóre: 23 | blog: radekm_blog
    Rozbalit Rozbalit vše Re: cetnost neexistujicich bigramu trigramu
    Poptreboval bych totiz pro jeden svuj program overovat, zda dane slovo je s urcitou pravdepodobnosti existujici slovo.
    Třeba slovo pesokolovec AFAIK neexistuje, ale trigramy v něm patří do existujících slov.
    22.11.2014 08:50 Radovan Garabik
    Rozbalit Rozbalit vše Re: cetnost neexistujicich bigramu trigramu
    Odporúčam sa obrátiť na Český národný korpus, frekvenčný zoznam slov majú a je to spoľahlivejšie ako trigramová metóda na znakoch.

    Ináč https://github.com/decultured/Python-Language-Detector, prípadne v googli "trigram language detector", existujúcich balíčkov je dosť.

    (BTW pomerne slušný českojazykový korpus máme aj u nás, zoznam slov môžem poskytnúť aj ja, znakové trigramy si ale budeš musieť z toho vyrátať sám :-))
    23.11.2014 00:02 heh
    Rozbalit Rozbalit vše Re: cetnost neexistujicich bigramu trigramu
    ten korpus se bude hodit... dekuju
    23.11.2014 15:10 Radovan Garabik
    Rozbalit Rozbalit vše Re: cetnost neexistujicich bigramu trigramu
    http://kassiopeia.juls.savba.sk/~garabik/tmp/cs/

    *-fic* je "beletria", *-all* obsahuje aj texty EU (je teda nadmnožinou *-fic*), je tam teda neprimerane veľa takých termínov. Je to úmyselne s rozlíšením veľkosti písmen.

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.