Portál AbcLinuxu, 22. listopadu 2025 16:50
This data file and the enclosed Czech dictionary files for ispell are free software; you can redistribute it and/or modify it under the terms of the GNU General Public License as published by the Free Software Foundation; either version 2 of the License, or (at your option) any later version (see /usr/share/common-licenses/GPL).Někde na netu se dá najít i javovský parser pro ispell.
org.apache.lucene.analysis.zip. Je to nový Analyzer a StemFilter do Lucene, využívá právě slovníku ispellu. Bude to chtít ale upravit (verze je hodně stará a třeba načítání všech pravidel do pole určitě ideální není). Jo, a pamatuju si, že tam někde zlobilo parsování pravidel (třída Rule nebo Rules). Ve slovníku byl použit tabulátor, parser ale hledal mezery…
Jak jsem psal v zápisku o StarDictu, používám GNU/FDL Anglicko-Český slovník. Otázka ale je, jak moc užitečný by byl pro výše uvedené užití.
Já se tak rozhodl už dávno, že GPL licencovanými věcmi se budu pokud možno vyhýbat při programování. Není to příliš svobodná licence pro programátory.
Uvažoval jsem, že by se zadalo slovo v prvním pádě a vybral rod.
Následně by jsi vybral ze seznamu vzorů pro tento rod a systém by automaticky doplnil zbývající
pády. Člověk by pak jen zkontroloval, zda doplnění koncovek bylo správné a pokud ne
(nebo by slovo bylo nepravidelné), tak by jednotlivé pády opravil. Odesláním formuláře by
se slovo uložilo a případně hned se objevilo další slovo čekající na skloňování. Takhle by šlo
pracovat velmi rychle a efektivně. Pro zpětnou kontrolu by existoval seznam naposledy
upravených slov, takže by jiní uživatelé mohli případně hned zajistit nápravu, kdyby si
někdo začal "hrát".
Jazykovedci niečo podobné ako ty už majú. V Brne na FI je to ajka (GNU/GPL, C), Ševeček (Lingea?) má lemmu a v Prahe sa tiež niečo nájde. Desiatky tisíc základných tvarov nie je zase až tak veľa ako by si potreboval. Používané nástroje majú databázu o rád až dva väčšiu (pre češtinu, samozrejme). Tieto databázy sa určite získať dajú, či už za peniaze, alebo barter (častejšia možnosť), žiadna z nich nie je slobodná.Máte někdo na ně kontakty? Taková databáze, kterou si na katedře kuchtí doktorand a nikdo o ni neví, je na dvě věci
Ideální je, kdyby se všichni propojili a společně vytvořili jednu dokonalou a otevřenou databázi.
My bychom jim mohli pomoci s propagací a třeba jim připravit webový nástroj na údržbu.
Takéto projekty nie je treba až tak propagovať, pretože ak to niekto potrebuje komerčne, tak sa o nich vcelku jednoducho dozvie. Ak sa vymyslí spôsob, ktorý bude prínosný aj pre tých, ktorí tie dáta majú, tak sa určite dohodnúť dá.Chci se o nich dozvedet adohodnout se. Nerad bych zacinal na prazdne louce. I deset tisic nejpouzivanejsich slov by abicku pomohlo rozjet stemming.
(prostě, pro open-source filosofii je tenhle úkol asi už značná výzva).
Asi by bylo fajn, kdyby ta aplikace/webovka třeba sama nabídla z různých možností.
Nicméně, pokud by se zadařilo, je tu podle mého názoru jistá možnost, že by to zajímalo i subjekty, které jsou jinak nuceny používat komerční řešení.
Ale mám skoro pocit, že o tomhle jsem se tady někde už jednou taky vyjadřoval.
))
Takhle uzivateli zadam druhy pad mnozneho cisla slova hrad, robot mi odpovi #4%@ a abicko potvrdi zalozeni uzivatele a zaroven tento nesmysl ulozi do databaze jako druhy pad slova hrad. Mozna by to slo na pouzit na overovani spravnosti existujicich udaju. Ale neshoda s ocekavanymi daty vnasi nejistotu - spletl se uzivatel captcha nebo autor pojmu? Navic by zde mohla byt diskriminace Slovaku, ne kazdy z nich asi bude dokonale ovladat cestinu. Takze tento napad je zajimavy, ale nasazeni v praxi je problematicke.
Technika je popsána zde.
cat slovak.words | ispell -e -d slovak | tr " " "\n" >slovak.word.list
Tiskni
Sdílej:
ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.