Svobodný český slovník?

AbcLinuxu:/ Blogy / LL / Abíčko / Svobodný český slovník?

Svobodný český slovník?

28.9.2007 08:01 | Přečteno: 4050× | Abíčko

Již dlouho plánuji nasadit ve vyhledávání stemmer. To je nástroj, který převede slovo do prvního pádu jednotného čísla. Vyspělé vyhledávací enginy jim disponují. Zatím mám ale problém s nalezením vhodného stemmeru. Pro javu existuje egothor, ale ten nemá slovník (seznam slov a jejich možných pádů). V Linuxu existuje například aspell, který slovník má, ale neměl jsem čas studovat jeho binární formát. Snad mají někde (v CVS?) vystaven zdrojový soubor, ale na webu jsem jej nenašel. I kdyby formát byl čitelný a mohl jsem jej použít v egothoru, bude zde problém s licencí - GPL. To silně omezuje možnosti využití jen na programy licencované GPL. Abíčko to sice splňuje, ale když už tím budu trávit čas, proč nevytvořit kompletní knihovnu použitelnou i v programech s jinými licencemi? Ve světě Javy je zvykem používat svobodné licence typu BSD, které neomezují programátory.

Moje výzva zní:

znáte-li české slovníky, prosím vložte sem na ně odkazy i s informací o licenci. Třeba už takový slovník existuje. Pokud neexistuje, myslíte, že by mělo smysl napsat webový nástroj pro vytváření slovníku? Jednoduchý formulář, kde byste zadali slovo ve všech pádech a případně přidali doplňující informace (rod, zda je slovo pomnožné, nepravidelné atd). Určitě by se dala naplnit databáze nepřeloženými slovy a na abíčku na každé stránce zobrazovat žádost o doplnění. Možná jsem naivní, ale během roku by se takto dala vytvořit databáze s desitkami tisíc slov. Zvláště pokud by se zapojili jazykovědci. Výstupem by byla svobodná databáze českých slov s jejich skloňováním. Ale třeba už existuje na nějakém ústavě, jen se o ni neví.

Hodnocení: 70 %

špatné • dobré

Tiskni Sdílej:

Komentáře

Nástroje: Začni sledovat (3) ? , Tisk

Vložit další komentář

28.9.2007 08:52 Jiří Jakeš | skóre: 22 | blog: Linuxovna_JJ | Taipei
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Odpovědět | Sbalit | Link | Blokovat | Admin

Jednou jsem si s tím v Javě hrál, použil jsem slovník ispellu. A licence?

This data file and the enclosed Czech dictionary files for ispell are free software; you can redistribute it and/or modify it under the terms of the GNU General Public License as published by the Free Software Foundation; either version 2 of the License, or (at your option) any later version (see /usr/share/common-licenses/GPL).

Někde na netu se dá najít i javovský parser pro ispell.

28.9.2007 08:54 Jiří Jakeš | skóre: 22 | blog: Linuxovna_JJ | Taipei
Rozbalit Rozbalit vše Re: Svobodný český slovník?

To ale asi není to, co jste chtěl slyšet, že?

28.9.2007 09:04 Leoš Literák | skóre: 74 | blog: LL | Praha
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Kdybys mel odkaz na ten java kod, bylo by to bezva. Ja zatim hledal spell a stemmer a moc moudry jsem z nalezenych vysledku nebyl. Byl bych radsi vytvoril knihovnu s Jakarta licenci a data s FDL licenci, ale pro abicko mi GPL nevadi.

Zakladatel tohoto portálu. Twitter, LinkedIn, blog, StackOverflow

28.9.2007 09:16 Jiří Jakeš | skóre: 22 | blog: Linuxovna_JJ | Taipei
Rozbalit Rozbalit vše Re: Svobodný český slovník?

http://osdir.com/ml/jakarta.lucene.devel/2002-12/msg00035.html, je to v org.apache.lucene.analysis.zip. Je to nový Analyzer a StemFilter do Lucene, využívá právě slovníku ispellu. Bude to chtít ale upravit (verze je hodně stará a třeba načítání všech pravidel do pole určitě ideální není). Jo, a pamatuju si, že tam někde zlobilo parsování pravidel (třída Rule nebo Rules). Ve slovníku byl použit tabulátor, parser ale hledal mezery…

28.9.2007 11:01 deda.jabko | skóre: 23 | blog: blog co se jmenuje "každý den jinak" | za new york city dvakrát doleva a pak už se doptáte
Rozbalit Rozbalit vše Re: Svobodný český slovník?

ispell pouziva treba jyxo... ale co jsem si pred nejakou dobou s nim hral, tak mi ispell misty daval hodne nesmyslne vysledky... :-/

Asi před rokem se dostali hackeři na servry Debianu a ukradli jim zdrojové kódy.

28.9.2007 12:20 Cohen | skóre: 21 | blog: Drobnosti | Brno
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Odpovědět | Sbalit | Link | Blokovat | Admin

Jak jsem psal v zápisku o StarDictu, používám GNU/FDL Anglicko-Český slovník. Otázka ale je, jak moc užitečný by byl pro výše uvedené užití.

OpenPGP key fingerprint: 489C 5EC8 0FD6 2BE8 9E59 B4F7 19C1 3E8C E0F5 DB61 (https://www.fi.muni.cz/~xruzick7/pgp-klic/)

28.9.2007 12:29 Lu-Tze | skóre: 15 | blog: Lu-Tzeho blog
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Odpovědět | Sbalit | Link | Blokovat | Admin

Řekl bych, že té věci se říká lemmatizátor. Stemmer zobrazuje slova na jejich kmeny.

28.9.2007 12:32 Miloslav Ponkrác | blog: miloslavponkrac
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Odpovědět | Sbalit | Link | Blokovat | Admin

Á koukám, další člověk, který moc nechce podporoval GPL věci :-)

Já se tak rozhodl už dávno, že GPL licencovanými věcmi se budu pokud možno vyhýbat při programování. Není to příliš svobodná licence pro programátory.

http://ponkrac.net

28.9.2007 13:17 Marek 'marx' Grác | skóre: 21 | blog: Paralelný blog | Brno / Bratislava
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Odpovědět | Sbalit | Link | Blokovat | Admin

Začnem dosť šialene od konca :)

Jazykovedci niečo podobné ako ty už majú. V Brne na FI je to ajka (GNU/GPL, C), Ševeček (Lingea?) má lemmu a v Prahe sa tiež niečo nájde. Desiatky tisíc základných tvarov nie je zase až tak veľa ako by si potreboval. Používané nástroje majú databázu o rád až dva väčšiu (pre češtinu, samozrejme). Tieto databázy sa určite získať dajú, či už za peniaze, alebo barter (častejšia možnosť), žiadna z nich nie je slobodná. Programy slobodné sú, pretože bez dát sú na dve veci.

Webový nástroj na vytváranie slovníku by mohol mať zmysel, ale musíš zabudnúť na zadávanie všetkých tvarov. To ti nikto v dostatočnom množstve robiť nebude. Chce to mať vymyslený systém vzorov. Buď pôjdeš cestou ispellu/ajky (nemmenná časť slova + koncovky), kde tie vzory sú robené pre počítač a je ich fakt veľa (počítaj stovky), alebo vyjdeš z tradičných vzorov (ktoré majú ďaleko od toho, aby boli jednoznačné) a vytvoríš ich. Tretia možnosť je použiť parciálne vzory, tj. máš vzor ktorý popisuje len prítomný čas, iný popisuje len minulý čas, ... - táto cesta je (zrejme) dosť nová. Ľudia ti budú omnoho radšej vyberať jeden z X (<10) vzorov ako zo stovky vzorov = písať všetky koncovky. Systém, ktorý slúži na takéto zatrieďovanie slov do 'skoro tradičných vzorov' mám, napísal som ho.

28.9.2007 13:48 Kyosuke | skóre: 28 | blog: nalady_v_modre
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Snažil jsem se zdrojáky Ajky najít, protože by se mi hodila, a nenašel jsem. Kdepak je k dispozici? ;-)

Jak moc jsou ábíčkáři inteligentní? ;-)

28.9.2007 14:02 Marek 'marx' Grác | skóre: 21 | blog: Paralelný blog | Brno / Bratislava
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Základná stránka je na stránkach projektu. Akurát ako vidím, tak tam už zdrojáky nie sú. Niektoré staršie verzie boli určite pod GNU/GPL, takže by som čakal, že bude minimálne na priloženom CD k diplomke. Odpoveď, že je v lokálnom CVSku ti je asi nanič :)

28.9.2007 14:07 Kyosuke | skóre: 28 | blog: nalady_v_modre
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Jestli je to GPL, nemohl bys kopii někam vystavit? ;-)

Jak moc jsou ábíčkáři inteligentní? ;-)

28.9.2007 14:11 Marek 'marx' Grác | skóre: 21 | blog: Paralelný blog | Brno / Bratislava
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Musím zistiť, ktorá posledná verzia bola GNU/GPL, takže niekedy na budúci týždeň (streda+) sa ozvi. Ja určite zabudnem.

30.9.2007 13:12 Leos
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Také začnu od konce :-)

Uvažoval jsem, že by se zadalo slovo v prvním pádě a vybral rod. Následně by jsi vybral ze seznamu vzorů pro tento rod a systém by automaticky doplnil zbývající pády. Člověk by pak jen zkontroloval, zda doplnění koncovek bylo správné a pokud ne (nebo by slovo bylo nepravidelné), tak by jednotlivé pády opravil. Odesláním formuláře by se slovo uložilo a případně hned se objevilo další slovo čekající na skloňování. Takhle by šlo pracovat velmi rychle a efektivně. Pro zpětnou kontrolu by existoval seznam naposledy upravených slov, takže by jiní uživatelé mohli případně hned zajistit nápravu, kdyby si někdo začal "hrát".

30.9.2007 17:39 Marek 'marx' Grác | skóre: 21 | blog: Paralelný blog | Brno / Bratislava
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Aké vzory chceš použiť? Tie o ktorých sa píše v knižkách/učebniciach, kde obľubujú slová ako väčšinou, zriedka, ... (nejednoznačné), nemenný základ slova + množiny koncoviek (rátaj so stovkami vzorov), alebo nejaký šialený systém kombinujúci lingvistické pravidlá a algoritmy? Všetky cestu sú možné, každá má úplne iné problémy :)

Takýmto zadávaním nevyriešiš problém, že užívateľ to zadá zle nechtiac (IMHO dosť časté - naposledy som značkoval ~13 tisíc slovies a miestami som mal pocit, že neviem po slovensky :) ).

1.10.2007 19:25 Leoš Literák | skóre: 74 | blog: LL | Praha
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Nez bych se do neceho podobneho pustil, musel bych vedet, ze to ma smysl. Zatim se mi tak nezda ..

Zakladatel tohoto portálu. Twitter, LinkedIn, blog, StackOverflow

30.9.2007 13:17 Leos
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Jazykovedci niečo podobné ako ty už majú. V Brne na FI je to ajka (GNU/GPL, C), Ševeček (Lingea?) má lemmu a v Prahe sa tiež niečo nájde. Desiatky tisíc základných tvarov nie je zase až tak veľa ako by si potreboval. Používané nástroje majú databázu o rád až dva väčšiu (pre češtinu, samozrejme). Tieto databázy sa určite získať dajú, či už za peniaze, alebo barter (častejšia možnosť), žiadna z nich nie je slobodná.

Máte někdo na ně kontakty? Taková databáze, kterou si na katedře kuchtí doktorand a nikdo o ni neví, je na dvě věci :-(

Ideální je, kdyby se všichni propojili a společně vytvořili jednu dokonalou a otevřenou databázi. My bychom jim mohli pomoci s propagací a třeba jim připravit webový nástroj na údržbu.

30.9.2007 17:34 Marek 'marx' Grác | skóre: 21 | blog: Paralelný blog | Brno / Bratislava
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Takéto databázy si nekuchtia doktorandi (teda tie rozumne veľké). Jazykkovedci nepotrebujú jednu veľkú databázu, pretože aj tak by sa neboli schopný dohodnúť na značkách (dokonca ani na ich formáte) - rod, číslo, pád, ... (veci, ktoré ty nepotrebuješ). Vezmi si, že Praha vs Brno - používa odlišný spôsob zápisu značiek a každá DB je založená na inej lingvistickej teórii (cháp doteraz nie je spôsob ako to komplikovanejšie veci zdieľať).

Webový nástroj na údržbu je síce pekná vec, ale väčšina ľudí nedokáže rozumne správne určiť všetky tvary. U časti slov to nedokážu ani slečny, ktoré to študujú :) Takéto projekty nie je treba až tak propagovať, pretože ak to niekto potrebuje komerčne, tak sa o nich vcelku jednoducho dozvie. Ak sa vymyslí spôsob, ktorý bude prínosný aj pre tých, ktorí tie dáta majú, tak sa určite dohodnúť dá. Bohužiaľ si ho predstaviť neviem, ale určite niečo existuje.

1.10.2007 19:28 Leoš Literák | skóre: 74 | blog: LL | Praha
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Takéto projekty nie je treba až tak propagovať, pretože ak to niekto potrebuje komerčne, tak sa o nich vcelku jednoducho dozvie. Ak sa vymyslí spôsob, ktorý bude prínosný aj pre tých, ktorí tie dáta majú, tak sa určite dohodnúť dá.

Chci se o nich dozvedet adohodnout se. Nerad bych zacinal na prazdne louce. I deset tisic nejpouzivanejsich slov by abicku pomohlo rozjet stemming.

Zakladatel tohoto portálu. Twitter, LinkedIn, blog, StackOverflow

1.10.2007 22:09 Marek 'marx' Grác | skóre: 21 | blog: Paralelný blog | Brno / Bratislava
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Máš ma v kontakt liste na ICQ, tak sa ozvi. Preberieme to skôr :) Na desať tisíc slov môžeš v pohode použiť databázu slov z ispellu a keď budeš mať niečo lepšie (fakt neviem akú majú tie dáta aktuálne licenciu) tak to nahradíš.

28.9.2007 13:47 Messa | skóre: 39 | blog: Messa
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Odpovědět | Sbalit | Link | Blokovat | Admin

To je dobrý dobrý nápad, pomohlo by to každému, kdo by si chtěl vážněji hrát s fulltextem. Já vím jen o výše zmiňovaném GNU/FDL Angl.-českém slovníku, ze kterého by se možná dalo také trochu vycucat. Jinak se AFAIK používají komerční slovníky.

Pokud by se udělala aplikace pro manuální zadávání, asi by to víceméně fungovalo. Ale jak už tu zaznělo, asi málokomu by se chtělo zadávat úplně všechny tvary. Chtělo by to co největší míru automatizace, ale to už je zase na někoho, kdo se takovými věcmi ve velké míře (profesionálně, akademicky) zabývá :-(

(prostě, pro open-source filosofii je tenhle úkol asi už značná výzva). Asi by bylo fajn, kdyby ta aplikace/webovka třeba sama nabídla z různých možností.

Nicméně, pokud by se zadařilo, je tu podle mého názoru jistá možnost, že by to zajímalo i subjekty, které jsou jinak nuceny používat komerční řešení.

28.9.2007 14:10 Marek 'marx' Grác | skóre: 21 | blog: Paralelný blog | Brno / Bratislava
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Ak sa subjekty, ktoré by to chceli využívať komerčne dohodnú a budú ochotné niečím prispieť, potom sa dá nad tým uvažovať. Z vlastnej praxe viem, že vytvárať tie vzory nie je až taká nuda. Zadávať tam tie slová je hrozná nuda, aj napriek tomu, že sa dá miestami dostať až k rýchlosti okolo 300-400 lemma / hodinu. Človek z toho zblbne :) Z akademického hľadiska sa nejedná o žiaden zázrak, pretože takéto veci tu sú už dlho, akurát nie sú 'slobodné'. Článok na slušnú konferenciu z toho nebude :(

Publish or Perish

28.9.2007 16:45 Messa | skóre: 39 | blog: Messa
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Moment, ta databáze by se dala použít i komerčně, ne? Bez jakýchkoliv dohod nebo přispívání. Stejně jako open-source software lze také využívat komerčně.

30.9.2007 17:41 Marek 'marx' Grác | skóre: 21 | blog: Paralelný blog | Brno / Bratislava
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Cháp chcú využívať komerčne = sú si vedomé hodnoty a sú ochotné prispieť, aj napriek tomu že prístup k tomu získať hneď aj konkurencia, ktorá neprispela :)

28.9.2007 14:32 User682 | skóre: 38 | blog: aqarium | Praha
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Odpovědět | Sbalit | Link | Blokovat | Admin

zdravim,

reseni se jmenuje WEB Services.

Ze na jedne strane bude kvalitni GPL program a na druhe strane kvalitni BSD | binarni program, tak to je jiz jedno. Ve finale vlastne pouzivate 2 kvalitni programy a o tom to je.

bye gf

28.9.2007 15:55 thingie
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Ve finále by to chtělo konečné řešení tohoto ,řešení`.

28.9.2007 16:13 Kyosuke | skóre: 28 | blog: nalady_v_modre
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Na problém jméněm "Web Services" navrhuju řešení "sockety a jednoduché a srozumitelné textové protokoly". ;-)

Jak moc jsou ábíčkáři inteligentní? ;-)

28.9.2007 16:46 User682 | skóre: 38 | blog: aqarium | Praha
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Ano a vytvaret dalsi z rady milionu textovych parseru a delat dalsi implementaci XPath, kdyz abclinuxu na xml bezi....

Jake lepsi textove protokoly mate ?

XML ma par svych nevyhod jiz z principu. Toto OK. Jenomze mate prave ty knihovny, ktere umoznuji se rychle dostavat k datum a o tomto to je.

LR parsery znam a pouzival jsem je. Ale je zbytecne vytvaret dalsi. Nebo pouzivat protokol, ktery zbori nepovoleny znak.

bye gf

28.9.2007 16:58 Kyosuke | skóre: 28 | blog: nalady_v_modre
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Takové, jaké zrovna potřebuju. Nemůžu si pomoct, ale cokoli smrdí XSD, od toho jdu radši dál. Nemusím XML cpát všude, už tak s ním pracuju osm hodin denně. :-)

Jak moc jsou ábíčkáři inteligentní? ;-)

28.9.2007 17:08 User682 | skóre: 38 | blog: aqarium | Praha
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Konkretne ? Jake formaty ? Idealne standartizovane.

Nema smysl si psat neco, co jiz existuje a je otestovano.

Pavel Kysilka

28.9.2007 17:07 Kyosuke | skóre: 28 | blog: nalady_v_modre
Rozbalit Rozbalit vše Re: Svobodný český slovník?

A ještě jedna drobnost, na složitější data taky nemusím používat parser, stačí symbolické výrazy, fungují padesát let, snadno podporují strukturovaná data a tomu, co je umí číst a zapisovat, se (kvůli jednoduchosti) snad ani nedá říkat parser. :-)

Ale mám skoro pocit, že o tomhle jsem se tady někde už jednou taky vyjadřoval. :-)

Jak moc jsou ábíčkáři inteligentní? ;-)

28.9.2007 17:13 User682 | skóre: 38 | blog: aqarium | Praha
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Jasne to chapu. Reseni nemusi byt spatne timto smerem. Taktez jsem se po nich pred casem lehce koukal a casem to udelam opet.

Ale date mi jiste za pravdu, ze pouziti technologie/formatu ovlivnuji i funkcni knihovny, udrzovanost projektu, moznost nejake interakce s jinymi knihovnami a aplikacemi. Nekdy i za cenu, ze vitezi i technologie s mene moznostmi, ale o to vetsi pouzitelnosti.

S jednim tvorenym parserem xml ne vlastni vyroby uz mam hodne bohate a spatne zkusenosti.

bye gf

28.9.2007 20:24 Messa | skóre: 39 | blog: Messa
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Jako by ta aplikace nemohla mít dvě rozhraní, jedno Web Services a druhé nějaké jednoduché textové, když už má autor náladu takové tvořit.

Co to ty Web Services vlastně jsou? XMLRPC? Ano, mohl bych si přečíst Wikipedii a pak třeba ještě dokumentaci těch knihoven, ale to bych dříve napsal spíš ten parser a navíc, když už tu je takový zkušený borec :-)

28.9.2007 17:05 User682 | skóre: 38 | blog: aqarium | Praha
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Moc dekuji za upozorneni. Toto mi jaksi nedoslo. Uz jsem sice napsal nekolik webovych sluzeb, coz vedlo k znacnemu vylepseni projektu a delam asi 7 let v IT a par let v bankovnictvi, ale fakt me mrzi, ze jsem to opomenul. Dovedu i prenaset objekty pomoci xml a webservices mezi ruznymi platformami, ale podle Vaseho prispevku jsem totalne mimo, coz uznavam.

Nechcete mi jeste anonymne poradit, jak mam udelat prvni guestbook v php a mysql ?

s pozdravem a moc dekuji za upozorneni

Pavel Kysilka

28.9.2007 21:07 Leos
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Nechapu souvislost komentare se zapiskem. Ja hledam databazi ceskych slov v ruznych padech a ty mi odpovis, ze resenim jsou web services.

28.9.2007 21:44 Messa | skóre: 39 | blog: Messa
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Nejspíš to mělo být řešení problémů s licencemi, o kterých jsi psal v zápisku. Pravda je, že použití nějaké GPL databáze nemusí klást licence týkající se omezení na software, který tuto databázi používá, pokud se použije vhodné rozhraní.

29.9.2007 16:56 User682 | skóre: 38 | blog: aqarium | Praha
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Ano, trefa do cerneho.

28.9.2007 21:51 Josef Kufner | skóre: 70
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Odpovědět | Sbalit | Link | Blokovat | Admin

Lidičky neříkejte, že vyskloňovat pár slov je takový problém... bez slovníku, jen podle vzorů jak se to učí na základní škole...

Hello world ! Segmentation fault (core dumped)

29.9.2007 11:04 Ladicek | skóre: 28 | blog: variace | Havlíčkův brod
Rozbalit Rozbalit vše Re: Svobodný český slovník?

))

Ještě na tom nejsem tak špatně, abych četl Viewegha.

30.9.2007 17:42 Marek 'marx' Grác | skóre: 21 | blog: Paralelný blog | Brno / Bratislava
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Ak naučíš počítač niečo o jazykovej intuícii, tak samozrejme nie. Inak to máš v pohode téma na bakalársku prácu, diplomku i dizertačku :)

29.9.2007 15:08 Dušan Hokův | skóre: 43 | blog: Fedora a další...
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Odpovědět | Sbalit | Link | Blokovat | Admin

GNU/FDL slovnik na zcu.cz

30.9.2007 13:06 Leos
Rozbalit Rozbalit vše Re: Svobodný český slovník?

To by se dalo pouzit jako zaklad pro slova čekající na skloňování.

2.10.2007 20:20 Messa | skóre: 39 | blog: Messa
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Odpovědět | Sbalit | Link | Blokovat | Admin

Něco mě napadlo (ale je možné, že to v této diskuzi již zaznělo) – na mnoha webech se používá Captcha, tedy opsání čísla z obrázku k ověření, že uživatel je člověk a ne spambot. Šlo by udělat nějaké API, které místo Captchy a políčka pro opsání kódu poskytne formulář pro zadání nějakých dat, které by mohly pomoci budovat takovýto slovník. Podobné užitečné náhrady za Captchu již mimochodem existují.

2.10.2007 22:29 Leoš Literák | skóre: 74 | blog: LL | Praha
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Zajimavy napad, az na overeni spravneho vysledku :-)

Takhle uzivateli zadam druhy pad mnozneho cisla slova hrad, robot mi odpovi #4%@ a abicko potvrdi zalozeni uzivatele a zaroven tento nesmysl ulozi do databaze jako druhy pad slova hrad. Mozna by to slo na pouzit na overovani spravnosti existujicich udaju. Ale neshoda s ocekavanymi daty vnasi nejistotu - spletl se uzivatel captcha nebo autor pojmu? Navic by zde mohla byt diskriminace Slovaku, ne kazdy z nich asi bude dokonale ovladat cestinu. Takze tento napad je zajimavy, ale nasazeni v praxi je problematicke.

Zakladatel tohoto portálu. Twitter, LinkedIn, blog, StackOverflow

2.10.2007 23:36 Kyosuke | skóre: 28 | blog: nalady_v_modre
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Požadovat zadání dvou odpovědí na dvě otázky, přičemž jednu odpověď zaručeně známe sami, jen návštěvníkovi neřekneme, která je ta, co neznáme? ;-)

Jak moc jsou ábíčkáři inteligentní? ;-)

4.10.2007 21:16 Lukáš Zapletal | skóre: 42 | blog: lzapův svět | Olomouc
Rozbalit Rozbalit vše Re: Svobodný český slovník?

No ale to je fakt dobrý nápad, Leoši! Pravda, že bys to neměl jak ověřit, ale minimálně bys mohl ispellem zjistit, jestli je to správné české slovo! A to už je docela dobrá kontrola, když tam budou slova 2, těžko se najde spambot, který bude vyplňovat do 2 textboxů dvě platná česká slova (každé jiné).

Otázkou je, jakou kvalitu by měla taková dotabáze, nicméně kdyby jsi měl alespoň nějaký základ, bylo by to slušné...

Later --- Lukáš Zapletal

5.10.2007 11:32 Kyosuke | skóre: 28 | blog: nalady_v_modre
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Jakmile máš třeba jen sto slovních tvarů, o kterých víš, že jsou správně, můžeš je začít předhazovat jako ověřovací verzi společně s tím tvarem, který se snažíš zjistit, a ta databáze správných tvarů by se měla rozrůstat. :-)

Technika je popsána zde.

Jak moc jsou ábíčkáři inteligentní? ;-)

4.10.2007 21:09 Lukáš Zapletal | skóre: 42 | blog: lzapův svět | Olomouc
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Odpovědět | Sbalit | Link | Blokovat | Admin

Velmi zajímavé, kde už jsem tohle slyšel? Ale teď vážně -- problémem je, že tyhle slovníky nemají sémantickou informaci. Změnou koncovky se může změnit význam slova. Obecně to ale nevadí - ve výsledcích bude jen o pár výsledků více, které nebudou až tak relevantní (obvykle se ale vyhledává slovní spojení).

Sehnat dobrý korpus je pro češtinu téměř nemožné, existují, ale na akademické půdě, případně jej vlastní firmy a ty jej z ruky nedají. Resp. dají, ale člověk musí solit.

Napadá mě - co kdybys ta data z ispellu vzal a vygeneroval podle nich jakési seznamy slov a koncovek, bylo by to v jiném formátu. Musel by tento nový datový soubor být také licencován pod GNU GPL?

Later --- Lukáš Zapletal

5.10.2007 13:23 Leoš Literák | skóre: 74 | blog: LL | Praha
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Tohle mi poslal Marek Grac:

cat slovak.words | ispell -e -d slovak | tr " " "\n" >slovak.word.list

Zakladatel tohoto portálu. Twitter, LinkedIn, blog, StackOverflow

5.10.2007 21:38 Leoš Literák | skóre: 74 | blog: LL | Praha
Rozbalit Rozbalit vše Re: Svobodný český slovník?

Myslim, ze v oblasti slovniku muzeme Slovakum jen zavidet: sk-spell.sk.cx/. Chtelo by to podobne aktivni projekt i pro cestinu.

Zakladatel tohoto portálu. Twitter, LinkedIn, blog, StackOverflow

Založit nové vlákno • Nahoru