Portál AbcLinuxu, 15. července 2025 09:54


Dotaz: cetnost neexistujicich bigramu trigramu

21.11.2014 10:03 heh
cetnost neexistujicich bigramu trigramu
Přečteno: 311×
Odpovědět | Admin
Dobry den,
marne na netu hledam nejakou tabulku s nejmin frekventovanymi(neexistujicimi) bigramy nebo trigramy v ceskem jazyce. Poptreboval bych totiz pro jeden svuj program overovat, zda dane slovo je s urcitou pravdepodobnosti existujici slovo. To znamena odfiltrovat neexistujici trigramy jako zzq, qwx, zrw, ywb, a podobne. Nemate nekdo odkaz na nejakou databazi, ktera by mi v tomhle pomohla. Dekuji.
Nástroje: Začni sledovat (0) ?Zašle upozornění na váš email při vložení nového komentáře.

Odpovědi

AraxoN avatar 21.11.2014 10:23 AraxoN | skóre: 47 | blog: slon_v_porcelane | Košice
Rozbalit Rozbalit vše Re: cetnost neexistujicich bigramu trigramu
Odpovědět | | Sbalit | Link | Blokovat | Admin
Stiahni si hunspell slovník, z neho vytvor zoznam platných n-gramov. Zoznam neplatných n-gramov potom odvodíš z neho.
21.11.2014 10:38 heh
Rozbalit Rozbalit vše Re: cetnost neexistujicich bigramu trigramu
Jo to me taky napadlo, ale rikal jsem si ze proc vymyslet znovu kolo, kdyz tohle uz musel resit nekdo predemnou. Jinak jeste soucasti tech slov mohou byt i jmena a prijmeni - ty mohou byt nekdy dost neobvykla. Kazdopadne, jestli nejakou uz vytvorenou databazi nenajdu, tak mi asi nic jineho nezbyde.
Jendа avatar 21.11.2014 20:27 Jendа | skóre: 78 | blog: Jenda | JO70FB
Rozbalit Rozbalit vše Re: cetnost neexistujicich bigramu trigramu
Odpovědět | | Sbalit | Link | Blokovat | Admin
Stáhnul bych Wikipedii a těch pár řádků snad už napíšeš. (pokud se ti to nechce stahovat, pustím ti dodaný skript lokálně a dám ti výsledek; skript musí být čitelný dostatečně na to, abych zjistil, že v něm není backdoor)
21.11.2014 22:36 Radek Miček | skóre: 23 | blog: radekm_blog
Rozbalit Rozbalit vše Re: cetnost neexistujicich bigramu trigramu
Odpovědět | | Sbalit | Link | Blokovat | Admin
Poptreboval bych totiz pro jeden svuj program overovat, zda dane slovo je s urcitou pravdepodobnosti existujici slovo.
Třeba slovo pesokolovec AFAIK neexistuje, ale trigramy v něm patří do existujících slov.
22.11.2014 08:50 Radovan Garabik
Rozbalit Rozbalit vše Re: cetnost neexistujicich bigramu trigramu
Odpovědět | | Sbalit | Link | Blokovat | Admin
Odporúčam sa obrátiť na Český národný korpus, frekvenčný zoznam slov majú a je to spoľahlivejšie ako trigramová metóda na znakoch.

Ináč https://github.com/decultured/Python-Language-Detector, prípadne v googli "trigram language detector", existujúcich balíčkov je dosť.

(BTW pomerne slušný českojazykový korpus máme aj u nás, zoznam slov môžem poskytnúť aj ja, znakové trigramy si ale budeš musieť z toho vyrátať sám :-))
23.11.2014 00:02 heh
Rozbalit Rozbalit vše Re: cetnost neexistujicich bigramu trigramu
ten korpus se bude hodit... dekuju
23.11.2014 15:10 Radovan Garabik
Rozbalit Rozbalit vše Re: cetnost neexistujicich bigramu trigramu
http://kassiopeia.juls.savba.sk/~garabik/tmp/cs/

*-fic* je "beletria", *-all* obsahuje aj texty EU (je teda nadmnožinou *-fic*), je tam teda neprimerane veľa takých termínov. Je to úmyselne s rozlíšením veľkosti písmen.

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.