Portál AbcLinuxu, 1. května 2025 07:10
Predstav si, že máš program na prácu so slovníkom. Ten program dáš ochotne free. Aj tie dáta dáš na bežné použitie free. Akurát chceš mať istotu, že ich niekto odtiaľ nevytiahne masovo a použije vo vlastnom programe.
Ja takéto dáta mám, v pohode by som uvolnil kvalitný slovník na spellchecking (+ pár vecí na zhodu predložky s ďalším slovom, atď). To, že tieto dáta bude niekto používať doma a kontrolovať si nimi dokumenty mi je úplne jedno, pretože mu to aj tak nechcem predávať. To, že firma ZZ si vytiahne môj slovník a použije na skutočný fulltext (ohýbanie slov, slovotvorba, ...) mi už až tak jedno nie je, pretože potrebujem z niečoho zaplatiť XXX vecí. Cena slušného slovníku na takéto účely sa pohybuje v iných rádoch ako pán boh zaplať. Zákazy na papieri nič neriešia a preto hľadám technické riešienie. Snáď, je to už pochopitelnejšie?
Napísať, že je niečo pre domáce použitie zdarma je práve varianta, ktorá nemá pre väčšinu používateľov žiadnu váhu. Pokiaľ sa ten program nikto nesnaží vykradnúť, tak mi nech ho používa aj na navádzanie rakety na Mars.
Jediné, čomu sa chcem vyhnúť je vykrádanie slovníku. A následné použitie niekde inde a je mi úplne jedno, či to ten človek bude potom predávať, alebo (nebodaj) šíriť zdarma. V oboch prípadoch by som na tom bol stratový.
Šifrovanie je síce fajn, ale keď máš okolo toho free aplikáciu, tak ti je podľa mňa na nič, pretože v nejakom mieste to už musíš vidieť odšifrované. A verím, že by sa čoskoro našiel človek, ktorý by to chcel mať free (deje sa to s väčšinou slovníkov, ktoré sú dostupné).
No práve to je ten klasický model zarábania na servise. Ale toto sú dáta, ktoré buď máš, alebo nemáš a ktoré neprestanú byť aktuálne za pol roka, aby si si zaplatil aktualizáciu. A práve keď dám free (tj. aj zdrojáky) aplikáciu, tak vykradnúť slovník nebude problém. Samozrejme, že to bude porušenie autorských práv, ale ... A dávať osekanú verziu to je niečo podobné ako keď opravujem v slovníku pre ispell, oo.org, ... len slová, ktoré sú zle a nepridávam nové slová [tj. aktuálny stav].
Inak sa to asi nedá.Ja dúfam, že by to snáď nejako mohlo ísť. Zatiaľ asi najreálnejšie je mať to online s kontrolou koľko prístupov k tomu z tej adresy (rozsahu adries) bolo. No uvidíme.
LaTeX2e <2001/06/01> Loading CZ hyphenation patterns: Pavel Sevecek, v3, 1995 Loading SK hyphenation patterns: Jana Chlebikova, 1992Nebo jsem naivní?
Súhlasím s tým, že je to trochu odvážne tvrdenie. V podstate sa malo jednať najmä na odstránení niektorých výnimiek a úpravu pár slov (s minimálnym výskytom v texte), aby bolo možné rozumne detekovať prípadné problémy s použitím inde.
Slovenské vzory sú trochu na dlhšie a ak sa nemýlim tak sú v takom stave, že ich prípadná zmena je možná [aspoň podľa p. Sojku]. Viem, že na túto tému sme tu mali bakalársku prácu, ale nepamätám si ako to nakoniec dopadlo.
Ajka (pre neznalých morfologický analyzátor, tj. vec ktorá povie základný tvar slova, gramatické kategórie a pár ďalších vecí) je GNU/GPL a zrejme neexistuje spôsob ako ochrániť tie dáta pred vykradnutím. Dáta sú prístupné cez web a jabber, takže na kontrolu správnosti slov sa využiť dá aj zvonka. Ale ku zdrojovým dátam sa len tak nedostaneš.
Áno, tvorba slovníka je záležitosť na mesiace [prvá moja prezentácia na túto tému bola na jeseň 2002] a preto by som o to nechcel prísť. Samozrejme, že sa dajú využiť aj iné postupy, ktoré to urýchlia, ale vzhľadom na množstvo výnimiek v jazykoch (snáď až na esperanto a latinu) je treba to aj tak prejsť ručne. Dosť pomôže existencia akéhokoľvek korpusu na overovanie správnych tvarov. Problémom je získanie prístupu k takému korpusu vzhľadom na ne-nekomerčný charakter a nutnosť uspokojiť sa s vlastnými zdrojmi (cháp desiatky miliónov miesto stoviek miliónov slov).
Tiskni
Sdílej:
ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.