Ochrana dát v open-source aplikáciach

Slobodný softvér je pekná vec, ale v súčasnosti je založený najmä na prebytkoch (pozri Marigolda, či Geeklandiu). Moje programy sú prevažne jednoduché a bez dát bezcenné. Dáta sú to z čoho sa dá žiť.

Je ale možné chrániť dáta vo free aplikáciach? V aplikácii bez zdrojáku sa jednoducho použije šifrovanie, šialený binárny formát a čo ja viem, čo ešte a tým sa dá celkom slušne zabrániť masívnemu vykrádaniu dát (napr. zo slovníkov). Ciest ako to vykradnúť z obrazovky je tiež dosť. Máme programy na klávesové makrá, knižnice, ktoré vypisujú všetky volania, ...

To, že ľudia sú rovnakí a kradnúť sa bude aj keby čo zrejme dokazuje aj jeden z posledných príkladov. Keď jeden free slovník vznikol vykradnutím PC Translatoru [na ten zrejme stačí najjednoduchšia kombinácia šípka dole+vykopíruj dvojicu meno+heslo].

Jediný mne známy spôsob ako uchrániť dáta v slobodnom softvéri je však bohužial pre mňa nepoužiteľný :( Tento spôsob je použitý pri delení slov v TeXu. Kde autor predal vzory na delenie slov Microsoftu, následne do neho pridal zopár chýb, ktoré by teoreticky bežný smrteľník nemal nájsť a šlo to do TeXu. No a keďže si TeX zakladá na tom, že dokument bude vyzerať stále rovnako, tak šanca na zmenu v oficiálnej verzii je minimálna aj keby niekto lokalizoval tú, či inú konkrétnu chybu.

Posledná vec, ktorá ma napadla je spraviť to čisto ako klient-server aplikáciu, pričom server by bol u mňa. A následne blokovať celé podsiete (D?/C?/B?) pri pokuse o vykradnutie. Samozrejme, že takéto vykradnutie je porušením autorského zákona, ale že by som veril v dohľadanie .... tak zase až tak naivný nie som.

Má niekto nápad ako riešiť takýto problém? Ak sa ukáže rozumný a realizovateľný nápad, tak by behom pár týždňov mohol byť v OO.org rozumný spell-checking. Ak nie, tak zostaneme pri starom, kde sa akurát tieto slovníky kontrolujú mojím [povedzme, že vzhľadom na ich rozsah a kvality nie sú konkurenciou]

PS: Dnes mi prišla odpoveď na bug, ktorý som posielal pred dvoma rokmi s tým, že v novej verzii by sa to nemalo vyskytovať. Priznám sa, že dáta na ktorých to padalo už dosť dlho nemám :)

Komentáře

Asi se budu opakovat, ale opět nechápu, o co má vlastně jít.

31.5.2005 21:29 Marek 'marx' Grác | skóre: 21 | blog: Paralelný blog | Brno / Bratislava
Rozbalit Rozbalit vše Re: WTF

Predstav si, že máš program na prácu so slovníkom. Ten program dáš ochotne free. Aj tie dáta dáš na bežné použitie free. Akurát chceš mať istotu, že ich niekto odtiaľ nevytiahne masovo a použije vo vlastnom programe.

Ja takéto dáta mám, v pohode by som uvolnil kvalitný slovník na spellchecking (+ pár vecí na zhodu predložky s ďalším slovom, atď). To, že tieto dáta bude niekto používať doma a kontrolovať si nimi dokumenty mi je úplne jedno, pretože mu to aj tak nechcem predávať. To, že firma ZZ si vytiahne môj slovník a použije na skutočný fulltext (ohýbanie slov, slovotvorba, ...) mi už až tak jedno nie je, pretože potrebujem z niečoho zaplatiť XXX vecí. Cena slušného slovníku na takéto účely sa pohybuje v iných rádoch ako pán boh zaplať. Zákazy na papieri nič neriešia a preto hľadám technické riešienie. Snáď, je to už pochopitelnejšie?

31.5.2005 21:35 pol128 | skóre: 18
Rozbalit Rozbalit vše Re: WTF

Jaj, a ty chceš teraz vedieť ako to spraviť, aby "home" užívateľ mal program voľne a firma by ti zacvakala slovník? Nuž tak to zašifruj a napíš tam, že pre domáce použitie zdarma. Ja si to síce nenainštalujem, ale možnot ti z toho niečo príde na účet.

31.5.2005 22:00 Marek 'marx' Grác | skóre: 21 | blog: Paralelný blog | Brno / Bratislava
Rozbalit Rozbalit vše Re: WTF

Napísať, že je niečo pre domáce použitie zdarma je práve varianta, ktorá nemá pre väčšinu používateľov žiadnu váhu. Pokiaľ sa ten program nikto nesnaží vykradnúť, tak mi nech ho používa aj na navádzanie rakety na Mars.

Jediné, čomu sa chcem vyhnúť je vykrádanie slovníku. A následné použitie niekde inde a je mi úplne jedno, či to ten človek bude potom predávať, alebo (nebodaj) šíriť zdarma. V oboch prípadoch by som na tom bol stratový.

Šifrovanie je síce fajn, ale keď máš okolo toho free aplikáciu, tak ti je podľa mňa na nič, pretože v nejakom mieste to už musíš vidieť odšifrované. A verím, že by sa čoskoro našiel človek, ktorý by to chcel mať free (deje sa to s väčšinou slovníkov, ktoré sú dostupné).

31.5.2005 22:10 pol128 | skóre: 18
Rozbalit Rozbalit vše Re: WTF

Preto existuje free software. Pokiaľ je tak kvalitný, že jeho kvality ocenia aj firemní zákazníci, tak nie je nič ľahšie, ako ťa zavolať, aby si im to inštaloval a pekne na tom zarábal. Čiže poskytoval podporu. Ak ti je slovník vzácny (to chápem, sú to celkom hutné dáta), dávaj zdarma a free len aplikáciu na ich čítanie. Slovník len za poplatok. Možno nejakú ľahšiu verziu free pre domáce použitie. Inak sa to asi nedá.

31.5.2005 22:23 Marek 'marx' Grác | skóre: 21 | blog: Paralelný blog | Brno / Bratislava
Rozbalit Rozbalit vše Re: WTF

No práve to je ten klasický model zarábania na servise. Ale toto sú dáta, ktoré buď máš, alebo nemáš a ktoré neprestanú byť aktuálne za pol roka, aby si si zaplatil aktualizáciu. A práve keď dám free (tj. aj zdrojáky) aplikáciu, tak vykradnúť slovník nebude problém. Samozrejme, že to bude porušenie autorských práv, ale ... A dávať osekanú verziu to je niečo podobné ako keď opravujem v slovníku pre ispell, oo.org, ... len slová, ktoré sú zle a nepridávam nové slová [tj. aktuálny stav].

Inak sa to asi nedá.

Ja dúfam, že by to snáď nejako mohlo ísť. Zatiaľ asi najreálnejšie je mať to online s kontrolou koľko prístupov k tomu z tej adresy (rozsahu adries) bolo. No uvidíme.

31.5.2005 22:28 VícNežNic | skóre: 42 | blog: Spáleniště | Ne dost daleko
Rozbalit Rozbalit vše Re: WTF

Hm, oni ovšem předpokládají, že to jde nějak řešit technicky. Podle mého je to marný boj a plýtvání prostředky.

Copak toho není dost?

Tento spôsob je použitý pri delení slov v TeXu. Kde autor predal vzory na delenie slov Microsoftu, následne do neho pridal zopár chýb, ktoré by teoreticky bežný smrteľník nemal nájsť a šlo to do TeXu.

Je mi jasné, když působíte v Brně, že asi autora znáte. Takže pouštět se do debaty je asi zbytečné, protože byste to měl asi vědět líp. Přesto tvrdím, že vaše tvrzení je minimálně odvážné.

Pokud jsem v různých zdrojích četl, pan Ševeček tyto vzory vytvořil pro editor, jehož jméno si už nepamatuju (T602?). Protože byly svého času nejlepší, jeho firma prodala licenci české pobočce Microsoftu, která jej použila ve svých produktech. Zároveň ale uvolnil totéž s drobnými změnami pro CSTUG, aby je bylo možné použít v csTeXu. Nevím, jestli je vhodné nazývat tyto změny chybami, ale rozhodně bych to takto neprezentoval.

LaTeX2e <2001/06/01>
Loading CZ hyphenation patterns: Pavel Sevecek, v3, 1995
Loading SK hyphenation patterns: Jana Chlebikova, 1992

Nebo jsem naivní?

Práce: Liberix, o.p.s. | Blog: OpensourceBlog.cz | Online kurz Zlatý WordPress

31.5.2005 21:42 Marek 'marx' Grác | skóre: 21 | blog: Paralelný blog | Brno / Bratislava
Rozbalit Rozbalit vše Re: Dělení slov v TeXu

Súhlasím s tým, že je to trochu odvážne tvrdenie. V podstate sa malo jednať najmä na odstránení niektorých výnimiek a úpravu pár slov (s minimálnym výskytom v texte), aby bolo možné rozumne detekovať prípadné problémy s použitím inde.

Slovenské vzory sú trochu na dlhšie a ak sa nemýlim tak sú v takom stave, že ich prípadná zmena je možná [aspoň podľa p. Sojku]. Viem, že na túto tému sme tu mali bakalársku prácu, ale nepamätám si ako to nakoniec dopadlo.

Muzu se zeptat, jak jsi sestavil ten slovnik? Pro jednotlivce to je prace na mesice. Nebo se snad nekomu v NLP hnulo svedomi a uvazuji o nekomercnim uvolneni slovniku z ajky?

31.5.2005 23:42 Marek 'marx' Grác | skóre: 21 | blog: Paralelný blog | Brno / Bratislava
Rozbalit Rozbalit vše Re: Zdroj?

Ajka (pre neznalých morfologický analyzátor, tj. vec ktorá povie základný tvar slova, gramatické kategórie a pár ďalších vecí) je GNU/GPL a zrejme neexistuje spôsob ako ochrániť tie dáta pred vykradnutím. Dáta sú prístupné cez web a jabber, takže na kontrolu správnosti slov sa využiť dá aj zvonka. Ale ku zdrojovým dátam sa len tak nedostaneš.

Áno, tvorba slovníka je záležitosť na mesiace [prvá moja prezentácia na túto tému bola na jeseň 2002] a preto by som o to nechcel prísť. Samozrejme, že sa dajú využiť aj iné postupy, ktoré to urýchlia, ale vzhľadom na množstvo výnimiek v jazykoch (snáď až na esperanto a latinu) je treba to aj tak prejsť ručne. Dosť pomôže existencia akéhokoľvek korpusu na overovanie správnych tvarov. Problémom je získanie prístupu k takému korpusu vzhľadom na ne-nekomerčný charakter a nutnosť uspokojiť sa s vlastnými zdrojmi (cháp desiatky miliónov miesto stoviek miliónov slov).

Ochrana dát v open-source aplikáciach

Hodnocení: -

Komentáře