Portál AbcLinuxu, 7. května 2025 07:18
This data file and the enclosed Czech dictionary files for ispell are free software; you can redistribute it and/or modify it under the terms of the GNU General Public License as published by the Free Software Foundation; either version 2 of the License, or (at your option) any later version (see /usr/share/common-licenses/GPL).Někde na netu se dá najít i javovský parser pro ispell.
org.apache.lucene.analysis.zip
. Je to nový Analyzer a StemFilter do Lucene, využívá právě slovníku ispellu. Bude to chtít ale upravit (verze je hodně stará a třeba načítání všech pravidel do pole určitě ideální není). Jo, a pamatuju si, že tam někde zlobilo parsování pravidel (třída Rule nebo Rules). Ve slovníku byl použit tabulátor, parser ale hledal mezery…
Jak jsem psal v zápisku o StarDictu, používám GNU/FDL Anglicko-Český slovník. Otázka ale je, jak moc užitečný by byl pro výše uvedené užití.
Jazykovedci niečo podobné ako ty už majú. V Brne na FI je to ajka (GNU/GPL, C), Ševeček (Lingea?) má lemmu a v Prahe sa tiež niečo nájde. Desiatky tisíc základných tvarov nie je zase až tak veľa ako by si potreboval. Používané nástroje majú databázu o rád až dva väčšiu (pre češtinu, samozrejme). Tieto databázy sa určite získať dajú, či už za peniaze, alebo barter (častejšia možnosť), žiadna z nich nie je slobodná.Máte někdo na ně kontakty? Taková databáze, kterou si na katedře kuchtí doktorand a nikdo o ni neví, je na dvě věci
Takéto projekty nie je treba až tak propagovať, pretože ak to niekto potrebuje komerčne, tak sa o nich vcelku jednoducho dozvie. Ak sa vymyslí spôsob, ktorý bude prínosný aj pre tých, ktorí tie dáta majú, tak sa určite dohodnúť dá.Chci se o nich dozvedet adohodnout se. Nerad bych zacinal na prazdne louce. I deset tisic nejpouzivanejsich slov by abicku pomohlo rozjet stemming.
cat slovak.words | ispell -e -d slovak | tr " " "\n" >slovak.word.list
Tiskni
Sdílej:
ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.