Portál AbcLinuxu, 20. července 2025 10:54


Nástroje: Začni sledovat (1) ?Zašle upozornění na váš email při vložení nového komentáře.

Vložit další komentář
14.9.2005 10:06 peter
Rozbalit Rozbalit vše kontrola gramatiky
Odpovědět | Sbalit | Link | Blokovat | Admin
Kontrola gramatiky mi trochu chýba. Pričom by nemusela zahŕňať všetko. Potešila by aj kontrola čiarok, opakovaných slov, znásobených medzier a skvelá by bola kontrola niektorých gramatických javov, pre ktoré sú exaktné pravidlá (v SK používanie predložiek s/z, i/y v prídavných menách)... To by nemuselo byť zložité naprogramovať a predsa som nevidel žiadny free SW, ktorý by to dokázal.
14.9.2005 12:02 Marek 'marx' Grác | skóre: 21 | blog: Paralelný blog | Brno / Bratislava
Rozbalit Rozbalit vše Re: kontrola gramatiky
Prosím ťa, pozri sa realite do očú. Tzv. exaktné javy v slovenskej gramatiky, nie sú ani náhodou také jednoznačné, aby to nebolo len plané kecanie, tak aspoň náčrty (viac si nájdeš v slovenskom národnom korpuse):

Písanie s/z resp. predložiek vobec sa samozrejme viaže s pádom, občas s viacerými (tuším max 3-4). Aby si bol schopný povedať, ktorá predložka tam patrí, tak potrebuješ vedieť akého pádu je menná skupina (noun group/noun phrase) za ním. Lenže k tomu potrebuješ slovník, ktorý obsahuje pády. Čisto teoreticky by šiel využiť ispell, lenže z neho sa dosť ťažko zisťuje pád (keďže tam nie je; aj keď by ho šlo dosť často tipnúť). Jediné, čo smieš robiť automaticky a v podstate jednoducho je s/so, z/zo teda výber vokalizovanej formy, to sa skutočne dá napísať za poobedie.

Písanie i/y v prídavných menách je ešte o kus ďalej, pretože dosť často nemáš po sebe slová v rovnakom páde a tak nemožeš ani jednoducho určiť k čomu sa vlastne viaže to prídavné meno. S triviálnymi algoritmami, ktoré zbúchaš do týždňa sa s (morfologickou analýzou, tj. poznáš číslo, pád, rod, ...) dokážeš určite dostať aspoň k 80%. Ale to znamená, že jedno z piatich bude zle, alebo dobre a on ho označí ako zle, ... Ak sa nemýlim, tak na podobnú tému je vedená jedna dizertačná práca u p. Hajiča (jedna slovenka) a v spolupráci so SAV teraz jedna kamarátka dokončila diplomovú prácu na toto téma. Ešte som ju nečítal, takže neviem na čo prišla :)

Samozrejme, ak by sa našiel niekto, kto sa chce tejto problematike venovať, tak ochotne poslúžim radami. Základom je však aspoň morfologická analýza slovenčiny, či češtiny. Morfologický analyzátor ajka je dostupný webe pod GNU/GPL (nejaká staršia verzia), ale samozrejme bez dát. Dáta sa buď kúpia a aby mohli byť free, tak by zrejme boli slušne drahé (nebudú to desiatky tisíc), alebo vytvoria. Na čo si rezervujte minimálne pár mesiacov čistého času. Slovenské dáta má jedna nemenovaná firma (akurát sa chvália len určovaním základného tvaru, takže asi viac nemajú; takže to je možno podobné ako ispell), už zaniknuté lab. poč. lingvistiky na pedagogickej fak. UKomeneského & SAV & nlp na FI MUNI (tie isté dáta), a nejaké dáta mám aj ja. Šanca, že ti ich niekto dá free je mizivá, ledaže by sa vymyslel nejaký biznis model (najlepšia varianta).

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.