abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 10:22 | IT novinky

    Městský soud v Praze vyhlásil rozsudek, který vyhověl žalobě novináře Jana Cibulky, který s podporou spolku IuRe (Iuridicum Remedium) požadoval omluvu od státu za to, že česká legislativa nařizuje operátorům uchovávat metadata o elektronické komunikaci. To je přitom v rozporu s právem. Stát se musí novináři omluvit a zaplatit náklady řízení. Především je ale součástí přelomové rozhodnutí o nelegálnosti shromažďování dat a o

    … více »
    Ladislav Hagara | Komentářů: 1
    dnes 08:22 | IT novinky

    Americké technologické firmy Apple a Meta Platforms porušily pravidla na ochranu unijního trhu, uvedla včera Evropská komise (EK). Firmám proto vyměřila pokutu – Applu 500 milionů eur (12,5 miliardy Kč) a Metě 200 milionů eur (pět miliard Kč). Komise to oznámila v tiskové zprávě. Jde o první pokuty, které souvisejí s unijním nařízením o digitálních trzích (DMA). „Evropská komise zjistila, že Apple porušil povinnost vyplývající z nařízení

    … více »
    Ladislav Hagara | Komentářů: 4
    dnes 08:11 | IT novinky

    Americká společnost OpenAI, která stojí za chatovacím robotem ChatGPT, by měla zájem o webový prohlížeč Chrome, pokud by jeho současný majitel, společnost Google, byl donucen ho prodat. Při slyšení u antimonopolního soudu ve Washingtonu to řekl šéf produktové divize ChatGPT Nick Turley.

    Ladislav Hagara | Komentářů: 0
    dnes 07:55 | Nová verze

    Po roce vývoje od vydání verze 1.26.0 byla vydána nová stabilní verze 1.28.0 webového serveru a reverzní proxy nginx (Wikipedie). Nová verze přináší řadu novinek. Podrobný přehled v souboru CHANGES-1.28.

    Ladislav Hagara | Komentářů: 0
    dnes 07:44 | Nová verze

    Byla vydána nová verze 10.0.0 otevřeného emulátoru procesorů a virtualizačního nástroje QEMU (Wikipedie). Přispělo 211 vývojářů. Provedeno bylo více než 2 800 commitů. Přehled úprav a nových vlastností v seznamu změn.

    Ladislav Hagara | Komentářů: 0
    včera 16:33 | Komunita

    42 svobodných a otevřených projektů získalo finanční podporu od NLnet Foundation (Wikipedie).

    Ladislav Hagara | Komentářů: 0
    včera 12:22 | IT novinky

    Americký výrobce čipů Intel plánuje propustit více než 20 procent zaměstnanců. Cílem tohoto kroku je zjednodušit organizační strukturu ve firmě, která se potýká s problémy.

    Ladislav Hagara | Komentářů: 8
    včera 05:22 | Nová verze

    Byla vydána OpenMandriva Lx 6.0 s kódovým názvem Vanadium. Přehled novinek v poznámkách k vydání.

    Ladislav Hagara | Komentářů: 0
    včera 01:44 | Zajímavý článek

    CSIRT.CZ, český národní CERT provozovaný na základě veřejnoprávní správní smlouvy společností CZ.NIC, shrnuje patnáct let svého fungování pod tímto sdružením: CSIRT.CZ – 15 let ve sdružení CZ.NIC.

    Ladislav Hagara | Komentářů: 8
    22.4. 22:22 | Nová verze

    Commodore OS Vision (Wikipedie) byl vydán v nové verzi 3.0. Jedná se o linuxovou distribuci určenou pro fanoušky značky Commodore. Předinstalována je na počítačích Commodore 64x.

    Ladislav Hagara | Komentářů: 8
    Jaký filesystém primárně používáte?
     (58%)
     (1%)
     (10%)
     (22%)
     (4%)
     (1%)
     (2%)
     (0%)
     (1%)
     (2%)
    Celkem 440 hlasů
     Komentářů: 18, poslední 17.4. 12:41
    Rozcestník
    Štítky: není přiřazen žádný štítek

    Dotaz: cetnost neexistujicich bigramu trigramu

    21.11.2014 10:03 heh
    cetnost neexistujicich bigramu trigramu
    Přečteno: 311×
    Dobry den,
    marne na netu hledam nejakou tabulku s nejmin frekventovanymi(neexistujicimi) bigramy nebo trigramy v ceskem jazyce. Poptreboval bych totiz pro jeden svuj program overovat, zda dane slovo je s urcitou pravdepodobnosti existujici slovo. To znamena odfiltrovat neexistujici trigramy jako zzq, qwx, zrw, ywb, a podobne. Nemate nekdo odkaz na nejakou databazi, ktera by mi v tomhle pomohla. Dekuji.

    Odpovědi

    AraxoN avatar 21.11.2014 10:23 AraxoN | skóre: 47 | blog: slon_v_porcelane | Košice
    Rozbalit Rozbalit vše Re: cetnost neexistujicich bigramu trigramu
    Stiahni si hunspell slovník, z neho vytvor zoznam platných n-gramov. Zoznam neplatných n-gramov potom odvodíš z neho.
    21.11.2014 10:38 heh
    Rozbalit Rozbalit vše Re: cetnost neexistujicich bigramu trigramu
    Jo to me taky napadlo, ale rikal jsem si ze proc vymyslet znovu kolo, kdyz tohle uz musel resit nekdo predemnou. Jinak jeste soucasti tech slov mohou byt i jmena a prijmeni - ty mohou byt nekdy dost neobvykla. Kazdopadne, jestli nejakou uz vytvorenou databazi nenajdu, tak mi asi nic jineho nezbyde.
    Jendа avatar 21.11.2014 20:27 Jendа | skóre: 78 | blog: Jenda | JO70FB
    Rozbalit Rozbalit vše Re: cetnost neexistujicich bigramu trigramu
    Stáhnul bych Wikipedii a těch pár řádků snad už napíšeš. (pokud se ti to nechce stahovat, pustím ti dodaný skript lokálně a dám ti výsledek; skript musí být čitelný dostatečně na to, abych zjistil, že v něm není backdoor)
    21.11.2014 22:36 Radek Miček | skóre: 23 | blog: radekm_blog
    Rozbalit Rozbalit vše Re: cetnost neexistujicich bigramu trigramu
    Poptreboval bych totiz pro jeden svuj program overovat, zda dane slovo je s urcitou pravdepodobnosti existujici slovo.
    Třeba slovo pesokolovec AFAIK neexistuje, ale trigramy v něm patří do existujících slov.
    22.11.2014 08:50 Radovan Garabik
    Rozbalit Rozbalit vše Re: cetnost neexistujicich bigramu trigramu
    Odporúčam sa obrátiť na Český národný korpus, frekvenčný zoznam slov majú a je to spoľahlivejšie ako trigramová metóda na znakoch.

    Ináč https://github.com/decultured/Python-Language-Detector, prípadne v googli "trigram language detector", existujúcich balíčkov je dosť.

    (BTW pomerne slušný českojazykový korpus máme aj u nás, zoznam slov môžem poskytnúť aj ja, znakové trigramy si ale budeš musieť z toho vyrátať sám :-))
    23.11.2014 00:02 heh
    Rozbalit Rozbalit vše Re: cetnost neexistujicich bigramu trigramu
    ten korpus se bude hodit... dekuju
    23.11.2014 15:10 Radovan Garabik
    Rozbalit Rozbalit vše Re: cetnost neexistujicich bigramu trigramu
    http://kassiopeia.juls.savba.sk/~garabik/tmp/cs/

    *-fic* je "beletria", *-all* obsahuje aj texty EU (je teda nadmnožinou *-fic*), je tam teda neprimerane veľa takých termínov. Je to úmyselne s rozlíšením veľkosti písmen.

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.