Portál AbcLinuxu, 5. května 2025 21:45
Již dlouho plánuji nasadit ve vyhledávání stemmer. To je nástroj, který převede slovo do prvního pádu jednotného čísla. Vyspělé vyhledávací enginy jim disponují. Zatím mám ale problém s nalezením vhodného stemmeru. Pro javu existuje egothor, ale ten nemá slovník (seznam slov a jejich možných pádů). V Linuxu existuje například aspell, který slovník má, ale neměl jsem čas studovat jeho binární formát. Snad mají někde (v CVS?) vystaven zdrojový soubor, ale na webu jsem jej nenašel. I kdyby formát byl čitelný a mohl jsem jej použít v egothoru, bude zde problém s licencí - GPL. To silně omezuje možnosti využití jen na programy licencované GPL. Abíčko to sice splňuje, ale když už tím budu trávit čas, proč nevytvořit kompletní knihovnu použitelnou i v programech s jinými licencemi? Ve světě Javy je zvykem používat svobodné licence typu BSD, které neomezují programátory.
Moje výzva zní:
znáte-li české slovníky, prosím vložte sem na ně odkazy i s informací o licenci. Třeba už takový slovník existuje. Pokud neexistuje, myslíte, že by mělo smysl napsat webový nástroj pro vytváření slovníku? Jednoduchý formulář, kde byste zadali slovo ve všech pádech a případně přidali doplňující informace (rod, zda je slovo pomnožné, nepravidelné atd). Určitě by se dala naplnit databáze nepřeloženými slovy a na abíčku na každé stránce zobrazovat žádost o doplnění. Možná jsem naivní, ale během roku by se takto dala vytvořit databáze s desitkami tisíc slov. Zvláště pokud by se zapojili jazykovědci. Výstupem by byla svobodná databáze českých slov s jejich skloňováním. Ale třeba už existuje na nějakém ústavě, jen se o ni neví.
Tiskni
Sdílej:
This data file and the enclosed Czech dictionary files for ispell are free software; you can redistribute it and/or modify it under the terms of the GNU General Public License as published by the Free Software Foundation; either version 2 of the License, or (at your option) any later version (see /usr/share/common-licenses/GPL).Někde na netu se dá najít i javovský parser pro ispell.
org.apache.lucene.analysis.zip
. Je to nový Analyzer a StemFilter do Lucene, využívá právě slovníku ispellu. Bude to chtít ale upravit (verze je hodně stará a třeba načítání všech pravidel do pole určitě ideální není). Jo, a pamatuju si, že tam někde zlobilo parsování pravidel (třída Rule nebo Rules). Ve slovníku byl použit tabulátor, parser ale hledal mezery…
Jak jsem psal v zápisku o StarDictu, používám GNU/FDL Anglicko-Český slovník. Otázka ale je, jak moc užitečný by byl pro výše uvedené užití.
Jazykovedci niečo podobné ako ty už majú. V Brne na FI je to ajka (GNU/GPL, C), Ševeček (Lingea?) má lemmu a v Prahe sa tiež niečo nájde. Desiatky tisíc základných tvarov nie je zase až tak veľa ako by si potreboval. Používané nástroje majú databázu o rád až dva väčšiu (pre češtinu, samozrejme). Tieto databázy sa určite získať dajú, či už za peniaze, alebo barter (častejšia možnosť), žiadna z nich nie je slobodná.Máte někdo na ně kontakty? Taková databáze, kterou si na katedře kuchtí doktorand a nikdo o ni neví, je na dvě věci
Takéto projekty nie je treba až tak propagovať, pretože ak to niekto potrebuje komerčne, tak sa o nich vcelku jednoducho dozvie. Ak sa vymyslí spôsob, ktorý bude prínosný aj pre tých, ktorí tie dáta majú, tak sa určite dohodnúť dá.Chci se o nich dozvedet adohodnout se. Nerad bych zacinal na prazdne louce. I deset tisic nejpouzivanejsich slov by abicku pomohlo rozjet stemming.
cat slovak.words | ispell -e -d slovak | tr " " "\n" >slovak.word.list
ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.