Portál AbcLinuxu, 19. března 2024 06:42

Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku

19.9.2016 10:06 | Přečteno: 3768× | Všehochuť | Výběrový blog | poslední úprava: 2.10.2016 10:24

Nedávno jsem ke svému smutku zjistil, že stránky svobodného anglicko-českého slovníku slovnik.zcu.cz jsou mimo provoz. V archívu jsem našel jejich starou verzi a napsal na nich uvedenému autorovi (tj. Milanu Svobodovi) dotaz, co se stalo, jestli to žije, a pokud ne, že bych to po něm převzal.

Už je to týden (;c)), odpověď nemám (je dost možné, že ten e-mail už vůbec nepoužívá). Na žádném webu jsem nenašel jedinou zmínku o tom, že projekt skončil. Možná nikomu nechybí… Mně ale ano. Aktualizace: Milan Svoboda po návratu z dovolené hodinu po publikaci zápisku odepsal, že o zrušení webu nic neví (nejspíš nějaký nový ⸮aktivní⸮ správce na zcu.cz…), ale že zjistí, co půjde (hlavně jestli existuje nějaká záloha).

Bohužel nejčerstvější verze slovníku, co na počítači mám, je dva roky stará. Z archívu se mi podařilo dostat nejčerstvější data z 30. listopadu 2015 (je to ten nekomprimovaný latin2); kontrolní součty neseděly žádné. ;c) (Aktualizace 2:) V repozitáři LibreOffice je verze z 24. února 2016, super. :c) Díky Standovi Horáčkovi za info! Nemáte někdo novější? (Aktualizace 3 na konci příspěvku.) Bylo by skvělé ztratit co nejméně příspěvků.

Přijde mi ohromná škoda, aby tak velký komunitní projekt jen tak umřel. Zatím jsem registroval alespoň doménu svobodneslovniky.cz a zmíněný datový soubor s drobným úvodním slovem jsem tam umístil (ale v UTF-8).

Jazyky mám rád a po vzoru tohoto anglicko-českého slovníku jsem si v šuplíku v posledních letech vytvořil základy slovníků pro další jazyky. Jak jsem postupně zjistil, není to tak jednoduché. Každý jazyk má svá specifika, která vyžadují speciální formát dat. Ty jsem zatím nijak důkladněji neřešil (prostě jen ad-hoc ukládání do souboru), ale postupně to půjde. Ono na angličtinu člověk najde slovníků hromadu. Na jiné jazyky, zejména ty, co se běžně na školách neučí, už je to horší. Svobodný slovník je v takové situaci skvělá věc (a tím víc, pokud obsahuje gramaticky užitečné informace, např. vyžadovaný pád, což žádné slovníky běžně nemají a je obtížné takové informace vůbec dohledat).

Během hledání, co se vlastně stalo, jsem narazil na německou variantu svobodného slovníku, ale ten měl jen něco jako tisíc záznamů (to i ty moje šuplíkové mají víc) a byl to nějaký napůl komerční projekt. Tímhle směrem Svobodné slovníky rozhodně nepůjdou, s žádnou reklamou na webu nepočítám a chci to udržet co možná nejotevřenější.

Jediné, nad čím ještě budu uvažovat, je licence pro ty nové slovníky. GNU/FDL jsem zatím nečetl, ale rád bych ji porovnal s CC-BY, která z nich by byla vhodnější. GNU/FDL byla logickou volbou v době vzniku anglického slovníku, Creative Commons vznikly teprve na přelomu let 2002 a 2003, zatímco slovník v roce 2001.

Co dál

Nultá fáze už proběhla: zajištění nějaké verze slovníku a jeho zpřístupnění. Nulapůltá fáze je teď: průzkumem na vhodném místě (tj. tady :c)) zkusit získat co nejnovější data. Zatím bez jakýchkoli zásahů do dat.

První fáze: jakmile bude jasné, co je základní báze, tak umožnit přispívání do slovníku (alespoň nějak primitivně) a data pročistit (je tam relativně dost balastu typu náhodné záznamy, jako kdyby někdo bušil pěstí do klávesnice ;c)).

V druhé fázi by mohlo být opět i nějaké to webové rozhraní a obsažnější webové stránky – obnovit seznam použitelných programů a utilit apod.


TL;DR: Sháním datový soubor GNU/FDL anglicko-českého slovníku, novější než 30. listopadu 2015 24. února 2016. Původní web slovníku totiž umřel, tak tvořím nový.

Aktualizace 3 (26. 9. 2016): Mám díky Stanislavu Horáčkovi slovník z 23. května 2016 (díky!). Novější nepředpokládám, že se podaří někde schrastit. Začal jsem tedy pracovat s ním, provedl jsem citlivý merge s tím listopadovým a začal jsem drobné čištění. Než to hodím ven, ještě chci provést diff s nejnovějšími stardictovými daty. Další aktualizaci dám opět sem.

Aktualizace 4 (2. 10. 2016): Včera jsem prakticky zahájil „provoz“ slovníku a zpřístupnil ho k příspěvkům. V bodech:

       

Hodnocení: 100 %

        špatnédobré        

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

Komentáře

Nástroje: Začni sledovat (4) ?Zašle upozornění na váš email při vložení nového komentáře. , Tisk

Vložit další komentář

19.9.2016 10:42 xkomczax | skóre: 51 | blog: proste_blog
Rozbalit Rozbalit vše Re: Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku
Odpovědět | Sbalit | Link | Blokovat | Admin
Deb balíčky tvoříval Michal Čihař, zkus poptat data u něj.

Z GNU/FDL na CC-BY-SA 3.0 přešla kdysi Wikipedie. Tady je o tom něco málo napsáno.

Jinak projektu přeji hodně úspěchů, kdysi jsem do něj aktivně přispíval.

Mimochodem, nemá někdo zkušenost s Wikislovníkem a tvorbou dat pro běžné slovníkové programy právě z něj?

Linuxové návody, fotky, zápisky z cest.
19.9.2016 10:47 xkomczax | skóre: 51 | blog: proste_blog
Rozbalit Rozbalit vše Re: Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku
A teď si vzpomínám, že před pár lety (2010) se tu Jedna Hrach pokoušel rozjet česko-německý slovník. Stránky stále fungují, záznamů není ani půldruhého tisíce.
19.9.2016 11:11 xHire | skóre: 21 | blog: Linuxovník
Rozbalit Rozbalit vše Re: Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku
Ano, to je ten, co jsem ho nepřímo zmiňoval v zápisku. ;c) Ale ten export, co má dole javascript… –_– (Osobně mi vadí pojetí těch stránek – vypadá to příliš jako MFA.) Až teďka jsem si každopádně všiml, že tam jsou v datech uvedené i rody, takže to není úplně zlé.
Kryptoměny a bločenka.
19.9.2016 11:01 xHire | skóre: 21 | blog: Linuxovník
Rozbalit Rozbalit vše Re: Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku
Díky za tip, napíšu mu. :c) Na Wikipedii a kompatibilitu se rozhodně mrknu.

Jo, tvoje jméno jsem při používání slovníku vídal relativně často. Dobrá práce. :c)

U toho Wikislovníku jsou sice data dostupná, ale nekoukal jsem se dovnitř, takže je otázka, co všechno je v XML metadatech a co nezbyde než dolovat z wikitextu. Ale principiálně proč ne. :c) Kdyby ses do toho náhodou pustil, klidně pak poskytnu prostor (pro data/skripty/… cokoli) v rámci Svobodných slovníků (nebo tam aspoň dám odkaz ;c)). Docela by mě zajímalo, kolik z těch ~80k českých hesel reálně obsahuje překlady (a navíc pro ten který jazyk).
Kryptoměny a bločenka.
20.9.2016 13:03 xkomczax | skóre: 51 | blog: proste_blog
Rozbalit Rozbalit vše Re: Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku
Tak, na poslední dotaz si odpovím sám: export z Wikislovníku možný je (prozatím pouze ruská verze. Možná by mohl překontrolovat někdo, kdo rusky umí, jak dobře/špatně to funguje a třeba i porovnat s webovou verzí). Odkazy na GitHub se skripty pro export jsou taktéž dostupné.
20.9.2016 13:21 xHire | skóre: 21 | blog: Linuxovník
Rozbalit Rozbalit vše Re: Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku
Na dávkovou konverzi dat do jiného formátu mi použití API přijde nevhodné, když je možné ta data rovnou naráz stáhnout, a pak zpracovat lokálně. Kdyby se tohle přepsalo, ten zbytek by už mohl být použitelný, jak je.
Kryptoměny a bločenka.
2.10.2016 10:37 xHire | skóre: 21 | blog: Linuxovník
Rozbalit Rozbalit vše Re: Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku
Z GNU/FDL na CC-BY-SA 3.0 přešla kdysi Wikipedie. Tady je o tom něco málo napsáno.

Tak to bohužel nejde:

The operator of an MMC Site may republish an MMC contained in the site under CC-BY-SA on the same site at any time before August 1, 2009

Sice mám vnitřně pocit, že takovýhle špinavý hack by snad ani neměl být platný, ale testovat to v praxi nebudu. Přeci jen mých příspěvků je minimum a nechci, aby to vypadalo, že si nevážím práce ostatních, když svévolně měním licenci jejich příspěvků… Jediné, co to v praxi znamená, je omezená interoperabilita, protože ty licence jsou sice prakticky stejné (což dokazuje i ta možnost přelicencování v GNU/FDL 1.3), ale přesto vzájemně nekompatibilní, co se využívání jiných děl týče. Ale žilo se s tím doteď, bude se s tím žít i dál. ;c)

Tím pádem: data jsou, licence je také jasná, takže jsem už slovník „spustil“ (viz poslední aktualizace na konci zápisku).

Kryptoměny a bločenka.
19.9.2016 12:30 Michal Čihař | skóre: 61 | blog: Bláboly | Praha
Rozbalit Rozbalit vše Re: Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku
Odpovědět | Sbalit | Link | Blokovat | Admin
Bohuže originální data jsem neukládal, takže je nemám.

Nicméně neměl by být problém je zpátky převést ze stardictu, IMHO se tam neprovádějí žádné destruktivní změny.

Co tam je za změny: Zkusil jsem poslední data převést na txt pomocí stardict2txt: english-czech.txt.xz (ten soubor časem zmizí, bohužel jako příloha sem je to moc velké)

Weblate - překládání přes web | Gammu SMSD - posílání SMS | Blog
19.9.2016 13:18 xHire | skóre: 21 | blog: Linuxovník
Rozbalit Rozbalit vše Re: Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku
[Soubor stažen.] Díky! Pokud nebude dobitný originál, tak si s tím zkusím pohrát, co mi vypadne, a nějak to dát dohromady s tím, co mám. :c)
Kryptoměny a bločenka.
Petr Tomášek avatar 22.9.2016 10:34 Petr Tomášek | skóre: 39 | blog: Vejšplechty
Rozbalit Rozbalit vše Re: Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku
dobitný
LOOOOOOL :-)

Chudáček malej :-)
multicult.fm | monokultura je zlo | welcome refugees!
23.9.2016 21:27 xHire | skóre: 21 | blog: Linuxovník
Rozbalit Rozbalit vše Re: Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku
Au, to jsem tomu dal. >_<

Každopádně mi to připomíná, jak jsem chtěl jednou u ČD dobít na tu jejich kartu pětistovku (a takhle jsem o to požádal) a pán za přepážkou dal té pětsetikoruně pár slušných ran a povídá: „Chudák Boženka!“ :-D
Kryptoměny a bločenka.
wamba avatar 20.9.2016 20:48 wamba | skóre: 38 | blog: wamba
Rozbalit Rozbalit vše Re: Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku

IMHO se tam neprovádějí žádné destruktivní změny, tak nejsou tam slovní druhy. V rámci učení regexp výrazů v Perlu 6 jsem napsal skript pro převod. (Trvalo mi to déle než jsem původně předpokládal. :) )

use v6;
grammar Slovnik {
    rule TOP { ^ <typ>? <preklad> <poznamka>? <autor>? $ };
    token ws  { \h* };
    token bt  { <-[\<]> };
    rule typ  { '<' i '>' <(  <.bt>+ )> '</' i '>' };
    rule preklad  { '<' b '>' <(  <.bt>+ )> '</' b '>' };
    rule poznamka { <.bt>+ };
    rule autor    { '<' small '>' <( <.bt>+ )> '</' small '>' }; 
}

for lines() {
    my ($eng, @preklady) = .split('\n',:skip-empty);
    for @preklady {
        my %p is default(q{}) = Slovnik.parse( $_ ).Hash or warn "Neumím: $_";
        %p<autor> ~~ tr:d/'['']'//;
        %p<poznamka> .= trim;
        %p<poznamka> ~~ s:g/^'('|')'$//;
        put $eng, join "\t", %p<preklad typ poznamka autor>;
    }
}

Výsledek eng-cs-parse.txt.xz má 153774 řádků. Soubor en-cs.txt po odfiltrování komentářů a řádků bez překladu jich má 153637.

Odfiltrování:
perl6 -ne '.say unless /^\T+\t\t/|/^"#"/' en-cs.txt
This would have been so hard to fix when you don't know that there is in fact an easy fix.
21.9.2016 14:30 Michal Čihař | skóre: 61 | blog: Bláboly | Praha
Rozbalit Rozbalit vše Re: Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku
Slovní druh je taky v <i> stejně tak jako v původních datech, kde to je taky v jednom sloupci.
wamba avatar 21.9.2016 14:57 wamba | skóre: 38 | blog: wamba
Rozbalit Rozbalit vše Re: Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku
Máte pravdu, nicméně jsou tam oproti druhému souboru tak ojediněle, že jsem to přehlédl.
This would have been so hard to fix when you don't know that there is in fact an easy fix.
19.9.2016 15:47 Martin Měřinský
Rozbalit Rozbalit vše Re: Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku
Odpovědět | Sbalit | Link | Blokovat | Admin
Do GNU/FDL anglicko-českého slovníku jsem aktivně přispíval. Stále používám jeho data ve StarDictu, export stahuji z cihar.com. Web slovníku bohužel neměl hezkou doménu a vyhledávací políčko na úvodní stránce. Časem se ve výsledcích hledání začala objevovat prázdná pole. Díky tomu se další přispívání stalo obtížné. Je otázka, jestli se do dat dostaly nesmysly, nebo se rozbilo webové rozhraní. S licencí GNU/FDL nemám problém a vzhledem k počtu přispěvatelů ji není možné snadno změnit. Česko-německý GNU/FDL slovník se bohužel moc neujal a 30.4. se změnil provozovatel. Oživení slovníků by bylo užitečné. Pokud by oba slovníky sídlily na společném webu, kde byl k dispozici i export pro StarDict, bylo by to moc fajn. Něco podobného existuje např. tu dicts.info.

Acci avatar 19.9.2016 18:23 Acci | skóre: 3 | blog: Jen na chvíli…
Rozbalit Rozbalit vše Re: Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku
Odpovědět | Sbalit | Link | Blokovat | Admin
Příloha:
Pokud bys měl zájem, mohl bych připravit skript pro automatizovaný export slovníku do formátu pro macOS (jak to funguje viz obrázek v příloze).
19.9.2016 18:41 xHire | skóre: 21 | blog: Linuxovník
Rozbalit Rozbalit vše Re: Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku
To vypadá zajímavě. Zájem bych rozhodně měl – věřím, že se najdou lidi, kteří to ocení. :c) Na web to pak rád umístím.
Kryptoměny a bločenka.
19.9.2016 20:25 Michal Čihař | skóre: 61 | blog: Bláboly | Praha
Rozbalit Rozbalit vše Re: Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku
Případně je to možné přidat to skriptů, které používám na převod já, i když to je dost zaměřené na stardict (a spíše se řeší rozdílné vstupní formáty).
21.9.2016 23:21 Odin1918 | skóre: 6 | blog: Valhalla
Rozbalit Rozbalit vše Re: Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku
Odpovědět | Sbalit | Link | Blokovat | Admin
Kdyz jsme u tech jazyku. Mate nekdo zkusenosti, kdy je nejlepsi zacit vyucovat treti jazyk (v nasem pripade anglictinu) u ditete, ktere ma bilingvni vychovu (cestina, nemcina)? Osobne se priklanim k tomu zacit az behem skolni dochazky na zakladni skolu, ktera bude pripadne podporena dalsi soukromou vyukou. Dekuji za pripadne zkusenosti. ;-)
Petr Tomášek avatar 22.9.2016 10:41 Petr Tomášek | skóre: 39 | blog: Vejšplechty
Rozbalit Rozbalit vše Re: Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku
Já bych začal co nejdřív a viděl, co to s tím děckem udělá. Když to na něj bude moc, ono si už řekne.

Jinak to nevím, co máte všichni s angličtinou. Já myslím, že nejlepší jako světový jazyk bude arabština ;-)
multicult.fm | monokultura je zlo | welcome refugees!
Václav 22.9.2016 14:34 Václav "Darm" Novák | skóre: 26 | blog: Darmovy_kecy | Bechyně / Praha
Rozbalit Rozbalit vše Re: Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku
Ale houby. Angličtina, čínština, ruština, němčina. Nějaká arabština tu bude k prdu stejně jako byla dřív (dokud se tam nepřestane válčit a nezačne ve velkém vyrábět). A nějaké kecy Konvičky a Okamury na tom nic moc nezmění :)
Cross my heart and hope to fly, stick a cupcake in my eye!
kyknos avatar 22.9.2016 20:47 kyknos | skóre: 18 | blog: Quid novi? | Ranša Rosa
Rozbalit Rozbalit vše Re: Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku
a čínština je co? vždyť různí číňani se nedomluví ani navzájem, pokud si teda nekreslí obrázky

ostatně různí arabové také ne
So the Nationalists and the Socialists have the same policy on Brexit. They should get together and form a...
Václav 23.9.2016 08:43 Václav "Darm" Novák | skóre: 26 | blog: Darmovy_kecy | Bechyně / Praha
Rozbalit Rozbalit vše Re: Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku
Nedomluví, ale většinou se tím myslí standardní čínština.
Cross my heart and hope to fly, stick a cupcake in my eye!
kyknos avatar 23.9.2016 15:32 kyknos | skóre: 18 | blog: Quid novi? | Ranša Rosa
Rozbalit Rozbalit vše Re: Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku
problém je v tom, že se té standardní čínštině přisuzuje význam té virtuální čínštiny, která je v evropském kontextu možná něco jako germánština nebo slovanština či románština, možná i něco rozplizlejšího
So the Nationalists and the Socialists have the same policy on Brexit. They should get together and form a...
Petr Tomášek avatar 12.10.2016 20:00 Petr Tomášek | skóre: 39 | blog: Vejšplechty
Rozbalit Rozbalit vše Re: Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku
různí arabové se domluví úplně v pohodě, protože buď jsou to islamističtí vypatlanci a ovládají spisovnou arabštinu nebo se čumí na egyptské telenovely a domluví se egyptsky...
multicult.fm | monokultura je zlo | welcome refugees!
kyknos avatar 12.10.2016 20:22 kyknos | skóre: 18 | blog: Quid novi? | Ranša Rosa
Rozbalit Rozbalit vše Re: Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku
Ano, ale to už je v podstatě znalost cizího jazyka.
So the Nationalists and the Socialists have the same policy on Brexit. They should get together and form a...
⧠ A = 0 avatar 22.9.2016 15:49 ⧠ A = 0 | skóre: 10 | blog: Technokratovo_zrcadlo | Helsinki
Rozbalit Rozbalit vše Re: Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku
Já bych začal co nejdřív a viděl, co to s tím děckem udělá. Když to na něj bude moc, ono si už řekne.

Jinak to nevím, co máte všichni s angličtinou.
+1
Já myslím, že nejlepší jako světový jazyk bude arabština ;-)
-1
Nevolte zmrdy.
Jendа avatar 26.9.2016 09:23 Jendа | skóre: 78 | blog: Jenda | JO70FB
Rozbalit Rozbalit vše Re: Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku
Jinak to nevím, co máte všichni s angličtinou.
Je to jazyk, ve kterém je téměř všechna literatura týkající se oborů, o které se zajímám.
Petr Tomášek avatar 12.10.2016 20:02 Petr Tomášek | skóre: 39 | blog: Vejšplechty
Rozbalit Rozbalit vše Re: Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku
porno?
multicult.fm | monokultura je zlo | welcome refugees!
23.9.2016 12:37 Ondrej Santiago Zajicek
Rozbalit Rozbalit vše Re: Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku
Odpovědět | Sbalit | Link | Blokovat | Admin
Zminil bych PanLex. S licenci je to slozitejsi, jedna se o CC0 kompozici mnoha zdroju, ktere si samy mohou narokovat copyright.
kyknos avatar 23.9.2016 21:32 kyknos | skóre: 18 | blog: Quid novi? | Ranša Rosa
Rozbalit Rozbalit vše Re: Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku
Odpovědět | Sbalit | Link | Blokovat | Admin
a nestaci wiktionary?
So the Nationalists and the Socialists have the same policy on Brexit. They should get together and form a...
26.9.2016 09:09 xkomczax | skóre: 51 | blog: proste_blog
Rozbalit Rozbalit vše Re: Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku
skunkOS avatar 26.9.2016 10:57 skunkOS | skóre: 27 | blog: Tak nějak
Rozbalit Rozbalit vše Re: Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku
Odpovědět | Sbalit | Link | Blokovat | Admin
Tohle?

http://dl.cihar.com/slovnik/stable/stardict-english-czech-20160801.tar.gz
http://martinrotter.github.io
skunkOS avatar 26.9.2016 10:57 skunkOS | skóre: 27 | blog: Tak nějak
Rozbalit Rozbalit vše Re: Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku
http://dl.cihar.com/slovnik/
http://martinrotter.github.io
26.9.2016 12:03 xHire | skóre: 21 | blog: Linuxovník
Rozbalit Rozbalit vše Re: Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku
Jop, s těmihle daty to teď potřebuji porovnat a vytáhnout případně nové překlady. Aktuální potíž je, že na mém systému mi to generuje vícenásobné překlady v jiném pořadí, než jsou v těch odkazovaných (tím pádem není možné dělat diff, protože i stejné překlady mi vyjdou jako rozdílné). Požádal jsem proto Michala Čihaře, jestli by mohl z toho, co teď mám, zkusit vygenerovat stardictová data u sebe – to by snad mohlo dát stejné pořadí.
Kryptoměny a bločenka.
wamba avatar 26.9.2016 21:30 wamba | skóre: 38 | blog: wamba
Rozbalit Rozbalit vše Re: Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku
Jestli je tam to, co v tom dříve vloženém souboru english-czech.txt, tak tam nic moc navíc není. Při porovnání původního souboru (bez komentářů a nepřeložených slov) a převedeného zmíněného souboru podle (prvních dvou sloupců) anglické fráze a překladu (a vynechání autorů JimmiXS a Mark, kde jsou zjevné nesmysly)
perl6 -MHTML::Entity -e 'unit sub MAIN; my %slovnik = $^a.IO.lines.classify( *.split(/\t/).[0,1]>>.trim ); for $^b.IO.lines { next if .split(/\t/).[4] eq "JimmiXS"|"Mark"; .say unless %slovnik{ .split(/\t/).[0] } and %slovnik{ .split(/\t/).[0] }.{ .split(/\t/).[1].&decode-entities } }'
Dostávám:
as applicable   v uplatnitelném rozsahu                 web
callrozhodnutí  n: [id.]        "It's your call" - je to na tobě                jose & Pino
civil law       občanskosprávní                 Ivan Masár
cUPxZspc        rdyECnfrPArnttT zShXnRUeMuNjNJaFOI      DLaFVOAOVFF     QeGiyKThIHqTsDN
flap    mávat (křídly)                  Petr Písař
fuckster        mamrd
FvUSABgY        OoiIturLILmc    sUEFFXDMJiOysuiujCS     gDFGiRiZrVbtCZ  FQEcgrQuGW
get in the way (of something)   zabránit (něčemu)       [id.]           Tolda
gpvJbeDD        eKXPpWMtENK     mJXKJsnu        wkDxDGGPXKGAs   BDtBqYaDyvfD
HPqtqyPxWNmID   lVRyqPqeuHjeFopWj       kyyyIpjOisTHy   jWDWzpzxPaGCcvGtZ       fGgWfFykCX
ID      vnitřní průměr          inside diameter cartime.com
itchiness       svědění                 Tolda
IunlwRRbYBJVfYe mYJgVghkSxwY    OfyIJsvPvFjCmF  asMhnuLtapCbk   VhorIfybHHn
jig     přípravek               strojírenství   Suky
jkYqAfMxgnCqFlz EhnOCUbhgTql    uBVoZKZltmmb    sKxHlcqSWmHrNWzF        SVHzXttDoCpSeo
KMUaSvJQeoXTHQs SnybqsmcxODySVVAR       EDxdwEjxDOybOPs WPNGbvpPx       earPYCvMdSqsDoL
LBOKXmHFGV      XOGezaWEN       OgsTdxOvnnjTdAoUIx      KEnYNvMog       TaDGBIVqdzcAMfIfkWS
loud    nahlas                  hledac
loud    zvučně                  hledac
make so.'s call rozhodnout se   [frsl.]         jose
make so.'s call udělat rozhodnutí       [frsl.]         jose
make so.'s call učinit rozhodnutí       [frsl.]         jose
Piña Colada        Pi&#241;a Colada            alkoholický nápoj       xkomczax
podcast záznam (zvukový nebo video)     "n:"    často v mp3     Zdeněk
pRnIHgVQjkgesrfwI       HZxCKrLVcBqo    vtAUyiiplLxunMPmSD      QxuZijQuvEg     fodryZiRF
shooting (of the film)  natáčení        "n:"            Zdeněk
staple remover  rozešívačka                     Ivan Masár
stranded wire   licna           laněný = vodič spletený z více drátků   Suky
svNfQusoykzzR   VyOYFstK        nRoOikihJd      mXUaAecPiqMHlLZu        LdmuQilbYYhOdmldaZs
thickness       tlouštka                        cartime.com
tMnUThdrSI      NwuxxpvVPLzTIimwu       RzkvhlsVUhCjNebSCT      vntqlStAhuWp    JEQSydYWfHThtrqHO
tqUtSCvgcEjMOiUYx       yxLdjyOPS       LulhIUswQjbfPowJsUP     MuqNWnvBb       tREizhmGCWKF
U7ONsl  Htsq7   gWPVtkPzYFOFwiEd        HinFRhhok       vbeqmtnssct
United Arab Emirates    Spojené arabské emiráty
variable        veličina        [meteo.]                Ritchie
WJsFhkmmj       XTjoVppAWMxVoF  SSFPQScAmL      XFSwhmqOWLjHbcAOl       apwctRwNeqfyjGDwt
xYlkrrzpbDzCfLGmR       aRWQSxIemUCuL   rVLOTHTl        goDuzgoVqyHk    sRcrgjpXFgQYy
YJFgMOAIDFGryfj BTRnMPFuzmfSQ   SKnIvtQjFKO     UHXsncMH        fnYhqMBHypYKqWk
This would have been so hard to fix when you don't know that there is in fact an easy fix.
27.9.2016 14:35 xHire | skóre: 21 | blog: Linuxovník
Rozbalit Rozbalit vše Re: Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku
Super, díky!
Kryptoměny a bločenka.
2.10.2016 18:35 Michal Čihař | skóre: 61 | blog: Bláboly | Praha
Rozbalit Rozbalit vše Re: Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku
Odpovědět | Sbalit | Link | Blokovat | Admin
Slovníky u mě na webu se už budou generovat z nových dat (od zítřka).
Weblate - překládání přes web | Gammu SMSD - posílání SMS | Blog
2.10.2016 19:06 xHire | skóre: 21 | blog: Linuxovník
Rozbalit Rozbalit vše Re: Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku
Paráda! :-) Dám pak na web přímý odkaz na „latest“ verzi (nebo jak se domluvíme, co bude nejlepší).
Kryptoměny a bločenka.
2.10.2016 19:47 Michal Čihař | skóre: 61 | blog: Bláboly | Praha
Rozbalit Rozbalit vše Re: Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku
Klidně, ale pozor na varianty. Jsou tam hlavně pro nějakou aplikaci pro Android, která neumí zobrazovat tagy a vyhledávat diakritiku.
2.10.2016 22:19 petr_p | skóre: 59 | blog: pb
Rozbalit Rozbalit vše Re: Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku
Odpovědět | Sbalit | Link | Blokovat | Admin
Uplácal jsem program na prohledávání. Je to naivní implementace, kterou je možné spustit jako normální program z příkazové řádky, tak i jako CGI. Na mém desktopu načtení slovníku trvá asi sekundu a prohledání asi půl sekundy (na serveru, kde to běží, je to asi dva a půl krát pomalejší). Z toho vyplývá, že na seriozní webovou službu bude potřeba z toho udělat démona, který si bude držet data rozparsovaná. Hledání by se dalo urychlit normalizací na malá písmena a hledáním podřetězců (teď je to regulární výraz necitlivý na velikost písmen). Jinak by se musely použít nějaké lepší datové struktury (indexy na slova apod.). Kdyby se v tom chtěl někdo rýpat, tak kód lze stáhnout ze stejného adresáře. Je to v Perlu.
21.10.2016 10:54 neutr
Rozbalit Rozbalit vše Re: Resuscitace svobodného (GNU/FDL) anglicko-českého slovníku
To je velice povedené. Moc se mi to líbí právě pro tu jednoduchost. Stáhnul jsem si i originál a vykuchal do tabulek pro jednotlivá písmena A=A/a, B =B/b... dělám to v Calcu a celkem bez problému s tím udělám vše co chci.

Ovšem pro moje účely je vhodnější použít těžbu přes web. Takto jsem plánoval doplňovat databázi přes Google nebo Bing (pomocí dávek), ale jednoduchý výsledek mi zatím víc než postačuje. Ve výsledku by z toho měl být nejprve jen překlad a-č a č-a pro Writer LibreOffice / ApacheOpenOffice. Později bych asi udělal specializované odborné slovníky, nebo spíš nástroj pro jejich vytvoření. Všechno by to mělo být v kolekci pro úřady včetně databází popisných čísel celé republiky (tu už mám) - vykuchal jsem XML které zveřejňuje MVCR s tím že úřady pro které je to určeno budou moci doplnit i byty a obyvatele. Zabezpečení bude typem mé vlastní šifry, nebo alternativně umožním použít nějakou klasickou. Toto bude následně navázáno na geolokaci - to potřebují například hasiči aby věděli kolik hadic, žebříků, dronů ... potřebují. Nemám moc času zabývat se těžbou z netu, proto hledám snadná a free řešení. Jedno důležité jste mi poskytl - děkuji a jistě se podívám i na datové schránky.

Založit nové vláknoNahoru

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.