Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku

19.9.2016 10:06 | Přečteno: 1402× | Všehochuť | | poslední úprava: 2.10.2016 10:24

Nedávno jsem ke svému smutku zjistil, že stránky svobodného anglicko-českého slovníku slovnik.zcu.cz jsou mimo provoz. V archívu jsem našel jejich starou verzi a napsal na nich uvedenému autorovi (tj. Milanu Svobodovi) dotaz, co se stalo, jestli to žije, a pokud ne, že bych to po něm převzal.

Už je to týden (;c)), odpověď nemám (je dost možné, že ten e-mail už vůbec nepoužívá). Na žádném webu jsem nenašel jedinou zmínku o tom, že projekt skončil. Možná nikomu nechybí… Mně ale ano. Aktualizace: Milan Svoboda po návratu z dovolené hodinu po publikaci zápisku odepsal, že o zrušení webu nic neví (nejspíš nějaký nový ⸮aktivní⸮ správce na zcu.cz…), ale že zjistí, co půjde (hlavně jestli existuje nějaká záloha).

Bohužel nejčerstvější verze slovníku, co na počítači mám, je dva roky stará. Z archívu se mi podařilo dostat nejčerstvější data z 30. listopadu 2015 (je to ten nekomprimovaný latin2); kontrolní součty neseděly žádné. ;c) (Aktualizace 2:) V repozitáři LibreOffice je verze z 24. února 2016, super. :c) Díky Standovi Horáčkovi za info! Nemáte někdo novější? (Aktualizace 3 na konci příspěvku.) Bylo by skvělé ztratit co nejméně příspěvků.

Přijde mi ohromná škoda, aby tak velký komunitní projekt jen tak umřel. Zatím jsem registroval alespoň doménu svobodneslovniky.cz a zmíněný datový soubor s drobným úvodním slovem jsem tam umístil (ale v UTF-8).

Jazyky mám rád a po vzoru tohoto anglicko-českého slovníku jsem si v šuplíku v posledních letech vytvořil základy slovníků pro další jazyky. Jak jsem postupně zjistil, není to tak jednoduché. Každý jazyk má svá specifika, která vyžadují speciální formát dat. Ty jsem zatím nijak důkladněji neřešil (prostě jen ad-hoc ukládání do souboru), ale postupně to půjde. Ono na angličtinu člověk najde slovníků hromadu. Na jiné jazyky, zejména ty, co se běžně na školách neučí, už je to horší. Svobodný slovník je v takové situaci skvělá věc (a tím víc, pokud obsahuje gramaticky užitečné informace, např. vyžadovaný pád, což žádné slovníky běžně nemají a je obtížné takové informace vůbec dohledat).

Během hledání, co se vlastně stalo, jsem narazil na německou variantu svobodného slovníku, ale ten měl jen něco jako tisíc záznamů (to i ty moje šuplíkové mají víc) a byl to nějaký napůl komerční projekt. Tímhle směrem Svobodné slovníky rozhodně nepůjdou, s žádnou reklamou na webu nepočítám a chci to udržet co možná nejotevřenější.

Jediné, nad čím ještě budu uvažovat, je licence pro ty nové slovníky. GNU/FDL jsem zatím nečetl, ale rád bych ji porovnal s CC-BY, která z nich by byla vhodnější. GNU/FDL byla logickou volbou v době vzniku anglického slovníku, Creative Commons vznikly teprve na přelomu let 2002 a 2003, zatímco slovník v roce 2001.

Co dál

Nultá fáze už proběhla: zajištění nějaké verze slovníku a jeho zpřístupnění. Nulapůltá fáze je teď: průzkumem na vhodném místě (tj. tady :c)) zkusit získat co nejnovější data. Zatím bez jakýchkoli zásahů do dat.

První fáze: jakmile bude jasné, co je základní báze, tak umožnit přispívání do slovníku (alespoň nějak primitivně) a data pročistit (je tam relativně dost balastu typu náhodné záznamy, jako kdyby někdo bušil pěstí do klávesnice ;c)).

V druhé fázi by mohlo být opět i nějaké to webové rozhraní a obsažnější webové stránky – obnovit seznam použitelných programů a utilit apod.

TL;DR: Sháním datový soubor GNU/FDL anglicko-českého slovníku, novější než 30. listopadu 2015 24. února 2016 . Původní web slovníku totiž umřel, tak tvořím nový.

Aktualizace 3 (26. 9. 2016): Mám díky Stanislavu Horáčkovi slovník z 23. května 2016 (díky!). Novější nepředpokládám, že se podaří někde schrastit. Začal jsem tedy pracovat s ním, provedl jsem citlivý merge s tím listopadovým a začal jsem drobné čištění. Než to hodím ven, ještě chci provést diff s nejnovějšími stardictovými daty. Další aktualizaci dám opět sem.

Aktualizace 4 (2. 10. 2016): Včera jsem prakticky zahájil „provoz“ slovníku a zpřístupnil ho k příspěvkům. V bodech:

Slovníková data jsem hodně pročistil od spamu (náhodný balast) a setřídil (takže přímý diff proti starým datům nebude úplně čistý, ale můžete stará data také setřídit; bude ale snazší udržovat slovník do budoucna).

Momentálně hlavním přispěvatelským kanálem bude gitový repozitář na githubu. Časem bude opět i webové rozhraní.

Koncem dne se budou z gitu sestavovat slovníky na web. Současná URL by se už měnit neměla.

Licence zůstává GNU/FDL (relicencování na CC-BY-SA podle vzoru Wikipedie není možné kvůli klauzuli ve FDL 1.3, že by k tomu muselo dojít před 1. srpnem 2009…).

Nové slovníky budou CC-BY-SA, což umožní například jejich rozjezd naplněním základu z wikislovníků. To také znamená, že existující německo-český GNU/FDL slovník hodlám zanedbat, protože 1500 záznamů je příliš málo (navíc soudě podle komentářů by stálo za to lépe promyslet jeho formát).

