Portál AbcLinuxu, 4. května 2025 10:38
Pomaly sa blížim k oficiálnemu vydaniu mojho nástroju na hľadanie podobných slov. Primárne slúžiaceho na tvorbu česko-slovenského slovníku (teoreticky aj iné blízke jazyky, trochu som sa hral so slovinsko-srbským slovníkom). Z programátorského hľadiska som sa dostal do stavu, keď sa mi zdá zbytočné programovať ďalšie kusy kódu. Potrebujem však doriešiť praktické problémy.
Začnime v skratke tým ako to funguje. Na vstupe dostaneme zoznam slovenských slov v základnom tvare a zoznam českých slov, ak máme náhodou aj nejaké informácie o kontexte z veľkých korpusov tak ich možeme použiť. Projekt Trdlo (Transducing Dictionary - ako vznikajú akronymy) má sady pravidiel pre češtinu a slovenčinu, ktoré zvládajú jednoduché transformácie. Potom sa udeje pár krokov, kde získavame stále viac slov so stále menšou presnosťou :). Pri laboratórnych dátach a referenčnom slovníku sme sa dostali na pokrytie/presnosť - 68% / 97% a 82% / 92%. Bez pridania dodatočných dát sa teoreticky dá dostať niekam k 97% / 85%. Ale dosť bolo teórie, aj tak musím napísať ešte poriadny článok.
Projekt ako taký je pod BSD licencou, takže si s ním každý može robiť skoro čokoľvek. Ak však chceme kvalitnejšie dáta, tak ich potrebujeme prejsť, opraviť či pridať úplne rozdielne slová. Napadlo ma vytvoriť nejaké jednoduché rozhranie, aby si ľudia mohli prezrieť slovník a keď-tak v ňom opraviť chybu, alebo pridať nové slovo. Otázka je, či sa dá čakať nejaký efekt. Predstavoval by som to tak, že dáta ktoré by doplnili užívatelia by boli free (zrejme CC attribution) a ja by som uvolnil svoje skontrolované dáta vtedy keď by moje tvorili len 2/3. Dovtedy by som si ich ponechával pre seba, príp. pre niekoho komerčného, kto by zaplatil kontrolu časti dát.
Ďalšie využitie tohoto slovníku si viem predstaviť ako pomoc pri prekladaní GNU/FDL česko-anglického slovníku, vyhľadávanie súčasne v češtine aj slovenčine a samozrejme pre strojový preklad, kvoli ktorému som to celé robil. Ak vás napadnú akokoľvek šialené nápady na využitie, prosím prezentujte ich. Cieľom nie je zarobiť na dátach, ale mať ich čo najkvalitnejšie a v ideálnom stave aj maximálne využité.
Tiskni
Sdílej:
precetl jsem si to opravdu nekolikrat, ale jaksi jsem nepochopil, co by bylo treba delat. Nebo neni treba delat nic a je to jenom jakesi oznameni, ze uz jste s tim programem skoro u konce?
V podstate áno, ale musíš mať zoznam slov v cieľovom jazyku (stačí to, čo sa používa na kontrolu preklepov).
Po příkladech syntetické češtiny vyrobené ze slovenštiny jsem se skoro sháněl, a nic nenašel.
Slovenštinu slyším denně. Když už nevím co nějaké slovo znamená, použiju www.zoznam.sk a nechám si to přeložit do angličtiny. Toto mě zatím nikdy nezklamalo. Občas to dělám i obráceně a není problém. Sice se to stává velice málo, ale když už ano, poradím si.
Petr
Odporúčam používať tiež slovenské slovníky na http://slovnik.juls.savba.sk/ (niekedy sa hodia aj slovákom).
Cesko-slovensky tisteny slovnik mam doma uz tak dlouho, ze uz ani nevim kde jsem ho vzal :) Je to docela pekna bichle v nicem si nezada s cesko-anglickym slovnikem (ktery je ale jednosmerny).
Problém je, že rozumne kvalitný česko-slovenský slovnik (Slovensko-český a česko-slovenský slovník rozdílných výrazů (Jaroslav Nečas, Miloslav Kopecký, ISBN 8004224172) vyšiel v 1989. Jedná sa o diferenčný slovník a bol by perfektným doplnkom k tomu, čo dokážem vytvoriť, ale to by k nemu museli byť jasné práva :(
Často člověk narazí na slova, která size znějí podobně, ale význam je úplně jiný. Jako příklady mě teď napadají:
Asi bych si vzpomněl na víc příkladů, ale tohle snad stačí, jenom pro zajímavost
Máš pravdu. Tento problém dokážeš čiastočne eliminovať tým, že sa hráš len s blízkymi / veľmi blízkymi jazykmi. Pri češtine-slovenčine sa nebojuje až tak so slovami, ktoré majú úplne odlišný význam (kel ->kapusta; kapusta -> zelí) ale skor so slovami, ktoré majú podobný význam a významy sú kúsok posunuté. Ak by sme sa hrali so vzdialenejšími jazykmi, tak stále dokážeme mať slušnú úspešnosť, ale tam ide skor o odborné termíny (tj. slová z iného jazyka prisposobené na miestny zápis) - v Prahe sa kedysi robili takéto pokusy ako doplnok k existujúcemu slovníku pre neznáme slová pri preklade z češtiny do ruštiny.
Také dva klasické príklady na rovnaké slová s iným významom (okrem kapusty) sú "horký" a "chudý". Možno ich je aj viac, ale teraz si nespomeniem.
Do československého slovníka by sa viac asi hodili slová, ktoré sú úplne rozdielne (a to asi nie je ideálna úloha pre vyhľadávač podobných slov). Ja tu jeden papierový slovník rozdielných výrazov mám (z roku 1997), ale je maličký, takže raz za čas sa stane, že tam hľadané slovo nie je (nevie niekto, ako je "oliheň" v slovenčine? Je to sépia?) A keď si ho prezerám, tak sa stane aj, že nepoznám ani český ani slovenský význam niektorých slov (napr. vika (sk) = vikev (cz)), ale to je väčšinou moja neznalosť.
A čo so slovami (prípadne spôsobmi použitia slov), ktoré v jednom z jazykov neexistujú? Práve teraz ma napadne asi len málo: použitie slova "shedat" v konštrukciách ako "shledal jsem to velmi těžkým" (neviem, ako by som to bez úpravy preložil do slovenčiny) alebo české slová "křížala" alebo "povidla". Ako ich preložiť rozumne do slovenčiny? Prípadne slovenské "spevokol" jedným slovom do češtiny (aj keď to možno ide, nepoznám češtinu až tak dobre)?
Oliheň je také hlavonožec, ale ne sepie, dobře plave. Jiné slovo je kalmar, např. Architeuthis.
Podle Malá Československá encyklopedie na http://cotoje.cz: Loligo – rod desetiramenných hlavonožců. Mají protáhlé, torpédovité tělo. Dobře plavou. U pobřeží Evropy je hojná o. obecná, Loligo vulgaris, asi 50 cm dlouhá.
moje slovenská macecha říká povidlům lekvar nebo lektvar nebo nějak tak.....
Ahoj, robil som uvodnu verziu dat slovenskeho synonymickeho slovnika.
OpenThesaurus-SK - http://www.openthesaurus.tk/
Slovnik sa potom moze pouzit v OOo a inych projektoch. Projekt zastresuje Zdenko Podobny. (http://www.sk-spell.sk.cx/), ktory sa stara o dalsie projekty ktore maju nieco so Slovencinou.
snad ti tato informacia pomoze pri tvojej dalsej praci
Tibor
Vedel by si povedať, ako je užitočné dať možnosť editovať bežným používateľom?
Zdenka samozrejme poznám, do ispellu som pár (desiatok?/stoviek?) chýb reportoval :)
Ani nie, na to ti stačia omnoho jednoduchšie nástroje. Ak vezmeš vygenerovavané tvary z ispellu, tak to zvládne všetky tvary daného slova (s 'odlyšné' by si to asi už neporadilo)
ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.