Ochrana dát v open-source aplikáciach (diskuse)

Asi se budu opakovat, ale opět nechápu, o co má vlastně jít.

31.5.2005 21:29 Marek 'marx' Grác | skóre: 21 | blog: Paralelný blog | Brno / Bratislava
Rozbalit Rozbalit vše Re: WTF

Predstav si, že máš program na prácu so slovníkom. Ten program dáš ochotne free. Aj tie dáta dáš na bežné použitie free. Akurát chceš mať istotu, že ich niekto odtiaľ nevytiahne masovo a použije vo vlastnom programe.

Ja takéto dáta mám, v pohode by som uvolnil kvalitný slovník na spellchecking (+ pár vecí na zhodu predložky s ďalším slovom, atď). To, že tieto dáta bude niekto používať doma a kontrolovať si nimi dokumenty mi je úplne jedno, pretože mu to aj tak nechcem predávať. To, že firma ZZ si vytiahne môj slovník a použije na skutočný fulltext (ohýbanie slov, slovotvorba, ...) mi už až tak jedno nie je, pretože potrebujem z niečoho zaplatiť XXX vecí. Cena slušného slovníku na takéto účely sa pohybuje v iných rádoch ako pán boh zaplať. Zákazy na papieri nič neriešia a preto hľadám technické riešienie. Snáď, je to už pochopitelnejšie?

31.5.2005 21:35 pol128 | skóre: 18
Rozbalit Rozbalit vše Re: WTF

Jaj, a ty chceš teraz vedieť ako to spraviť, aby "home" užívateľ mal program voľne a firma by ti zacvakala slovník? Nuž tak to zašifruj a napíš tam, že pre domáce použitie zdarma. Ja si to síce nenainštalujem, ale možnot ti z toho niečo príde na účet.

31.5.2005 22:00 Marek 'marx' Grác | skóre: 21 | blog: Paralelný blog | Brno / Bratislava
Rozbalit Rozbalit vše Re: WTF

Napísať, že je niečo pre domáce použitie zdarma je práve varianta, ktorá nemá pre väčšinu používateľov žiadnu váhu. Pokiaľ sa ten program nikto nesnaží vykradnúť, tak mi nech ho používa aj na navádzanie rakety na Mars.

Jediné, čomu sa chcem vyhnúť je vykrádanie slovníku. A následné použitie niekde inde a je mi úplne jedno, či to ten človek bude potom predávať, alebo (nebodaj) šíriť zdarma. V oboch prípadoch by som na tom bol stratový.

Šifrovanie je síce fajn, ale keď máš okolo toho free aplikáciu, tak ti je podľa mňa na nič, pretože v nejakom mieste to už musíš vidieť odšifrované. A verím, že by sa čoskoro našiel človek, ktorý by to chcel mať free (deje sa to s väčšinou slovníkov, ktoré sú dostupné).

31.5.2005 22:10 pol128 | skóre: 18
Rozbalit Rozbalit vše Re: WTF

Preto existuje free software. Pokiaľ je tak kvalitný, že jeho kvality ocenia aj firemní zákazníci, tak nie je nič ľahšie, ako ťa zavolať, aby si im to inštaloval a pekne na tom zarábal. Čiže poskytoval podporu. Ak ti je slovník vzácny (to chápem, sú to celkom hutné dáta), dávaj zdarma a free len aplikáciu na ich čítanie. Slovník len za poplatok. Možno nejakú ľahšiu verziu free pre domáce použitie. Inak sa to asi nedá.

31.5.2005 22:23 Marek 'marx' Grác | skóre: 21 | blog: Paralelný blog | Brno / Bratislava
Rozbalit Rozbalit vše Re: WTF

No práve to je ten klasický model zarábania na servise. Ale toto sú dáta, ktoré buď máš, alebo nemáš a ktoré neprestanú byť aktuálne za pol roka, aby si si zaplatil aktualizáciu. A práve keď dám free (tj. aj zdrojáky) aplikáciu, tak vykradnúť slovník nebude problém. Samozrejme, že to bude porušenie autorských práv, ale ... A dávať osekanú verziu to je niečo podobné ako keď opravujem v slovníku pre ispell, oo.org, ... len slová, ktoré sú zle a nepridávam nové slová [tj. aktuálny stav].

Inak sa to asi nedá.

Ja dúfam, že by to snáď nejako mohlo ísť. Zatiaľ asi najreálnejšie je mať to online s kontrolou koľko prístupov k tomu z tej adresy (rozsahu adries) bolo. No uvidíme.

31.5.2005 22:28 VícNežNic | skóre: 42 | blog: Spáleniště | Ne dost daleko
Rozbalit Rozbalit vše Re: WTF

Hm, oni ovšem předpokládají, že to jde nějak řešit technicky. Podle mého je to marný boj a plýtvání prostředky.

Copak toho není dost?

Tento spôsob je použitý pri delení slov v TeXu. Kde autor predal vzory na delenie slov Microsoftu, následne do neho pridal zopár chýb, ktoré by teoreticky bežný smrteľník nemal nájsť a šlo to do TeXu.

Je mi jasné, když působíte v Brně, že asi autora znáte. Takže pouštět se do debaty je asi zbytečné, protože byste to měl asi vědět líp. Přesto tvrdím, že vaše tvrzení je minimálně odvážné.

Pokud jsem v různých zdrojích četl, pan Ševeček tyto vzory vytvořil pro editor, jehož jméno si už nepamatuju (T602?). Protože byly svého času nejlepší, jeho firma prodala licenci české pobočce Microsoftu, která jej použila ve svých produktech. Zároveň ale uvolnil totéž s drobnými změnami pro CSTUG, aby je bylo možné použít v csTeXu. Nevím, jestli je vhodné nazývat tyto změny chybami, ale rozhodně bych to takto neprezentoval.

LaTeX2e <2001/06/01>
Loading CZ hyphenation patterns: Pavel Sevecek, v3, 1995
Loading SK hyphenation patterns: Jana Chlebikova, 1992

Nebo jsem naivní?

Práce: Liberix, o.p.s. | Blog: OpensourceBlog.cz | Online kurz Zlatý WordPress

31.5.2005 21:42 Marek 'marx' Grác | skóre: 21 | blog: Paralelný blog | Brno / Bratislava
Rozbalit Rozbalit vše Re: Dělení slov v TeXu

Súhlasím s tým, že je to trochu odvážne tvrdenie. V podstate sa malo jednať najmä na odstránení niektorých výnimiek a úpravu pár slov (s minimálnym výskytom v texte), aby bolo možné rozumne detekovať prípadné problémy s použitím inde.

Slovenské vzory sú trochu na dlhšie a ak sa nemýlim tak sú v takom stave, že ich prípadná zmena je možná [aspoň podľa p. Sojku]. Viem, že na túto tému sme tu mali bakalársku prácu, ale nepamätám si ako to nakoniec dopadlo.

Muzu se zeptat, jak jsi sestavil ten slovnik? Pro jednotlivce to je prace na mesice. Nebo se snad nekomu v NLP hnulo svedomi a uvazuji o nekomercnim uvolneni slovniku z ajky?

31.5.2005 23:42 Marek 'marx' Grác | skóre: 21 | blog: Paralelný blog | Brno / Bratislava
Rozbalit Rozbalit vše Re: Zdroj?

Ajka (pre neznalých morfologický analyzátor, tj. vec ktorá povie základný tvar slova, gramatické kategórie a pár ďalších vecí) je GNU/GPL a zrejme neexistuje spôsob ako ochrániť tie dáta pred vykradnutím. Dáta sú prístupné cez web a jabber, takže na kontrolu správnosti slov sa využiť dá aj zvonka. Ale ku zdrojovým dátam sa len tak nedostaneš.

Áno, tvorba slovníka je záležitosť na mesiace [prvá moja prezentácia na túto tému bola na jeseň 2002] a preto by som o to nechcel prísť. Samozrejme, že sa dajú využiť aj iné postupy, ktoré to urýchlia, ale vzhľadom na množstvo výnimiek v jazykoch (snáď až na esperanto a latinu) je treba to aj tak prejsť ručne. Dosť pomôže existencia akéhokoľvek korpusu na overovanie správnych tvarov. Problémom je získanie prístupu k takému korpusu vzhľadom na ne-nekomerčný charakter a nutnosť uspokojiť sa s vlastnými zdrojmi (cháp desiatky miliónov miesto stoviek miliónov slov).