abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×

    dnes 14:11 | Pozvánky

    Zítra 23. září proběhne Maker Faire Mladá Boleslav, festival plný workshopů, interaktivních činností a především nadšených a zvídavých lidí.

    Ladislav Hagara | Komentářů: 0
    dnes 13:33 | Nová verze

    Byla vydána beta verze Ubuntu 23.10 s kódovým názvem Mantic Minotaur. Přehled novinek v poznámkách k vydání. Dle plánu by Ubuntu 23.10 mělo vyjít 12. října 2023.

    Ladislav Hagara | Komentářů: 7
    dnes 11:22 | Zajímavý článek

    Josef Průša informuje o nových verzích firmwarů pro tiskárny Original Prusa, 5.0.0 pro MK4 a MK3.9 a 5.1.0-alpha1 pro MINI, díky kterým jsou tiskárny mnohem rychlejší.

    Ladislav Hagara | Komentářů: 0
    dnes 09:11 | Nová verze

    Mastodon (Wikipedie), svobodná federalizovaná sociální síť, byl vydán ve verzi 4.2. Z novinek je vypíchnuto vylepšené vyhledávání.

    Ladislav Hagara | Komentářů: 4
    dnes 08:55 | Zajímavý článek

    Ben Hawkes publikoval pod názvem The WebP 0day analýzu bezpečnostní chyby CVE-2023-4863 v knihovně WebP / libwebp s řadou zajímavých odkazů. Pravděpodobně se jedná o stejnou chybu jako BLASTPASS (CVE-2023-41064 a CVE-2023-41061) v macOS, iOS, iPadOS a watchOS. Zpracování (zobrazení) speciálně připraveného obrázku nebo přílohy vedlo ke spuštění útočníkem připraveného kódu.

    Ladislav Hagara | Komentářů: 0
    dnes 08:11 | Zajímavý článek

    Myš je pro kočku: Prohlížeče je dalším dílem ze série článků Myš je pro kočku, kde Edvard Rejthar ukazuje, jak lze počítač ovládat bez myši. Používáte ve webových prohlížečích zkratky Ctrl+(Shift)+Tab, Ctrl+(Shift)+PgDn/PgUp, F6, (Shift)+Alt+Enter nebo F7?

    Ladislav Hagara | Komentářů: 2
    včera 14:33 | Nová verze

    Vývojáři mobilní Datovky prosí o pomoc s testováním beta verze mobilní Datovky s novým grafickým rozhraním, podporou pro tmavý režim a podporou pro VoDZ. Aplikace je zatím dostupná pouze pro zařízení Android a je umístěna v samostatném instalačním kanále Datovka Beta. Tento kanál slouží pro testovaní nové funkcionality a grafického uživatelského rozhraní. Datovka Beta se instaluje jako samostatná aplikace s vlastními daty, která

    … více »
    Ladislav Hagara | Komentářů: 0
    včera 13:22 | Zajímavý software

    Harlequin byl vydán ve verzi 1.0.0. Jedná se o TUI (Text User Interface) IDE (Integrated Development Environment) k systému pro správu SQL OLAP databází DuckDB.

    Ladislav Hagara | Komentářů: 0
    včera 12:55 | IT novinky

    Po roce a půl od představení DALL·E 2 představila společnost OpenAI novou verzi DALL·E 3 svého AI systému pro generování "realisticky vypadajících obrázků nebo uměleckých děl" na základě popisu v přirozeném jazyce, viz příklad "kosmonaut na koni fotorealisticky". Jednou z novinek je integrace s ChatGPT.

    Ladislav Hagara | Komentářů: 0
    včera 09:00 | Nová verze

    Nová čísla časopisů od nakladatelství Raspberry Pi: MagPi 133 (pdf) a HackSpace 70 (pdf).

    Ladislav Hagara | Komentářů: 0
    Knihy s linuxovou tematikou
     (20%)
     (15%)
     (51%)
     (27%)
    Celkem 271 hlasů
     Komentářů: 11, poslední 17.9. 19:19
    Rozcestník
    Štítky: není přiřazen žádný štítek

    Dotaz: cetnost neexistujicich bigramu trigramu

    21.11.2014 10:03 heh
    cetnost neexistujicich bigramu trigramu
    Přečteno: 289×
    Dobry den,
    marne na netu hledam nejakou tabulku s nejmin frekventovanymi(neexistujicimi) bigramy nebo trigramy v ceskem jazyce. Poptreboval bych totiz pro jeden svuj program overovat, zda dane slovo je s urcitou pravdepodobnosti existujici slovo. To znamena odfiltrovat neexistujici trigramy jako zzq, qwx, zrw, ywb, a podobne. Nemate nekdo odkaz na nejakou databazi, ktera by mi v tomhle pomohla. Dekuji.

    Odpovědi

    AraxoN avatar 21.11.2014 10:23 AraxoN | skóre: 46 | blog: slon_v_porcelane | Košice
    Rozbalit Rozbalit vše Re: cetnost neexistujicich bigramu trigramu
    Stiahni si hunspell slovník, z neho vytvor zoznam platných n-gramov. Zoznam neplatných n-gramov potom odvodíš z neho.
    21.11.2014 10:38 heh
    Rozbalit Rozbalit vše Re: cetnost neexistujicich bigramu trigramu
    Jo to me taky napadlo, ale rikal jsem si ze proc vymyslet znovu kolo, kdyz tohle uz musel resit nekdo predemnou. Jinak jeste soucasti tech slov mohou byt i jmena a prijmeni - ty mohou byt nekdy dost neobvykla. Kazdopadne, jestli nejakou uz vytvorenou databazi nenajdu, tak mi asi nic jineho nezbyde.
    Jendа avatar 21.11.2014 20:27 Jendа | skóre: 78 | blog: Jenda | JO70FB
    Rozbalit Rozbalit vše Re: cetnost neexistujicich bigramu trigramu
    Stáhnul bych Wikipedii a těch pár řádků snad už napíšeš. (pokud se ti to nechce stahovat, pustím ti dodaný skript lokálně a dám ti výsledek; skript musí být čitelný dostatečně na to, abych zjistil, že v něm není backdoor)
    21.11.2014 22:36 Radek Miček | skóre: 23 | blog: radekm_blog
    Rozbalit Rozbalit vše Re: cetnost neexistujicich bigramu trigramu
    Poptreboval bych totiz pro jeden svuj program overovat, zda dane slovo je s urcitou pravdepodobnosti existujici slovo.
    Třeba slovo pesokolovec AFAIK neexistuje, ale trigramy v něm patří do existujících slov.
    22.11.2014 08:50 Radovan Garabik
    Rozbalit Rozbalit vše Re: cetnost neexistujicich bigramu trigramu
    Odporúčam sa obrátiť na Český národný korpus, frekvenčný zoznam slov majú a je to spoľahlivejšie ako trigramová metóda na znakoch.

    Ináč https://github.com/decultured/Python-Language-Detector, prípadne v googli "trigram language detector", existujúcich balíčkov je dosť.

    (BTW pomerne slušný českojazykový korpus máme aj u nás, zoznam slov môžem poskytnúť aj ja, znakové trigramy si ale budeš musieť z toho vyrátať sám :-))
    23.11.2014 00:02 heh
    Rozbalit Rozbalit vše Re: cetnost neexistujicich bigramu trigramu
    ten korpus se bude hodit... dekuju
    23.11.2014 15:10 Radovan Garabik
    Rozbalit Rozbalit vše Re: cetnost neexistujicich bigramu trigramu
    http://kassiopeia.juls.savba.sk/~garabik/tmp/cs/

    *-fic* je "beletria", *-all* obsahuje aj texty EU (je teda nadmnožinou *-fic*), je tam teda neprimerane veľa takých termínov. Je to úmyselne s rozlíšením veľkosti písmen.

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.