abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
dnes 12:11 | Nová verze

Po sedmi měsících vývoje od vydání verze 4.9 byla vydána nová verze 4.10 svobodné náhrady proprietárních BIOSů a UEFI coreboot (Wikipedie). Na vývoji se podílelo 198 vývojářů. Provedli 2538 změn. Přidána byla podpora pro 28 mainboardů. Podpora pro 7 mainboardů byla odstraněna. Aktualizována byla také dokumentace.

Ladislav Hagara | Komentářů: 0
dnes 01:44 | Nová verze

Byla vydána nová verze 12.1 open source alternativy GitHubu, tj. softwarového nástroje s webovým rozhraním umožňujícího spolupráci na zdrojových kódech, GitLab (Wikipedie). Představení nových vlastností v příspěvku na blogu.

Ladislav Hagara | Komentářů: 2
včera 11:22 | Zajímavý článek

Článek Cheat: když je manpage příliš dlouhá na MojeFedora.cz představuje v Pythonu napsaný nástroj cheat pracující s cheatsheety aneb tím nejdůležitějším z manuálových stránek. Příkaz cheat místo dlouhé manuálové stránky zobrazí krátký seznam příkladů použití daného příkazu.

Ladislav Hagara | Komentářů: 12
21.7. 02:22 | Nová verze

Byla vydána verze 1.5.0 emulátoru terminálu Terminology (GitHub) postaveného nad EFL (Enlightenment Foundation Libraries). Přehled novinek v poznámkách k vydání.

Ladislav Hagara | Komentářů: 0
20.7. 21:55 | Nová verze

Byla vydána verze 0.72 populárního telnet a ssh klienta PuTTY. Podrobnosti v přehledu změn. Řešeno je také několik bezpečnostních chyb. Jejich nalezení bylo sponzorováno Evropskou komisí.

Ladislav Hagara | Komentářů: 0
19.7. 21:44 | Zajímavý článek

DataSpii Report podrobně rozebírá únik citlivých dat skrze osm rozšíření webových prohlížečů (Hover Zoom, SpeakIt!, SuperZoom, SaveFrom.net Helper, FairShare Unlock, PanelMeasurement, Branded Surveys, Panel Community Surveys) a jejich téměř okamžitý prodej.

Ladislav Hagara | Komentářů: 0
19.7. 11:44 | Zajímavý článek

Článek na Fedora Magazine rozebírá možnosti modifikace lokálních účtů Windows, například resetování hesla, pomocí Fedory nebo libovolné jiné linuxové distribuce a nástroje chntpw.

Ladislav Hagara | Komentářů: 5
19.7. 00:11 | Nová verze

Po více než dvou měsících od vydání Red Hat Enterprise Linuxu 8 byl ve verzi 8 vydán také jeho klon Oracle Linux (Wikipedie). Podrobnosti v příspěvku na blogu.

Ladislav Hagara | Komentářů: 22
18.7. 12:11 | Komunita

Na YouTube byly zveřejněny videozáznamy přednášek z konference a setkání vývojářů a uživatelů svobodných grafických softwarů Libre Graphics Meeting 2019.

Ladislav Hagara | Komentářů: 1
17.7. 20:00 | Komunita

Tým Fedory pro diverzitu a inkluzi organizuje Fedora Women’s Day (FWD) 2019. Oslavy žen přispívajících do open source projektů včetně Fedory budou probíhat po celém světě v měsících září a říjen. Návrhy akcí lze předkládat do pátku 23. srpna 2019.

Ladislav Hagara | Komentářů: 151
Používáte ještě 32bitový software na PC?
 (18%)
 (14%)
 (19%)
 (47%)
 (7%)
 (28%)
Celkem 180 hlasů
 Komentářů: 12, poslední dnes 13:26
Rozcestník

Česko-slovenský slovník, nápady a licencie

13.1.2009 23:19 | Přečteno: 7736× | Virtuálne

Pomaly sa blížim k oficiálnemu vydaniu mojho nástroju na hľadanie podobných slov. Primárne slúžiaceho na tvorbu česko-slovenského slovníku (teoreticky aj iné blízke jazyky, trochu som sa hral so slovinsko-srbským slovníkom). Z programátorského hľadiska som sa dostal do stavu, keď sa mi zdá zbytočné programovať ďalšie kusy kódu. Potrebujem však doriešiť praktické problémy.

Začnime v skratke tým ako to funguje. Na vstupe dostaneme zoznam slovenských slov v základnom tvare a zoznam českých slov, ak máme náhodou aj nejaké informácie o kontexte z veľkých korpusov tak ich možeme použiť. Projekt Trdlo (Transducing Dictionary - ako vznikajú akronymy) má sady pravidiel pre češtinu a slovenčinu, ktoré zvládajú jednoduché transformácie. Potom sa udeje pár krokov, kde získavame stále viac slov so stále menšou presnosťou :). Pri laboratórnych dátach a referenčnom slovníku sme sa dostali na pokrytie/presnosť - 68% / 97% a 82% / 92%. Bez pridania dodatočných dát sa teoreticky dá dostať niekam k 97% / 85%. Ale dosť bolo teórie, aj tak musím napísať ešte poriadny článok.

Projekt ako taký je pod BSD licencou, takže si s ním každý može robiť skoro čokoľvek. Ak však chceme kvalitnejšie dáta, tak ich potrebujeme prejsť, opraviť či pridať úplne rozdielne slová. Napadlo ma vytvoriť nejaké jednoduché rozhranie, aby si ľudia mohli prezrieť slovník a keď-tak v ňom opraviť chybu, alebo pridať nové slovo. Otázka je, či sa dá čakať nejaký efekt. Predstavoval by som to tak, že dáta ktoré by doplnili užívatelia by boli free (zrejme CC attribution) a ja by som uvolnil svoje skontrolované dáta vtedy keď by moje tvorili len 2/3. Dovtedy by som si ich ponechával pre seba, príp. pre niekoho komerčného, kto by zaplatil kontrolu časti dát.

Ďalšie využitie tohoto slovníku si viem predstaviť ako pomoc pri prekladaní GNU/FDL česko-anglického slovníku, vyhľadávanie súčasne v češtine aj slovenčine a samozrejme pre strojový preklad, kvoli ktorému som to celé robil. Ak vás napadnú akokoľvek šialené nápady na využitie, prosím prezentujte ich. Cieľom nie je zarobiť na dátach, ale mať ich čo najkvalitnejšie a v ideálnom stave aj maximálne využité.

       

Hodnocení: 100 %

        špatnédobré        

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

Komentáře

Vložit další komentář

14.1.2009 00:39 dad
Rozbalit Rozbalit vše Re: Česko-slovenský slovník, nápady a licencie

precetl jsem si to opravdu nekolikrat, ale jaksi jsem nepochopil, co by bylo treba delat. Nebo neni treba delat nic a je to jenom jakesi oznameni, ze uz jste s tim programem skoro u konce?

14.1.2009 01:21 Marek 'marx' Grác | skóre: 21 | blog: Paralelný blog | Brno / Bratislava
Rozbalit Rozbalit vše Re: Česko-slovenský slovník, nápady a licencie
  • nápady ako by šiel taký slovník reálne využiť
  • má zmysel sa babrať s interface-om na úpravu slovníku, alebo to je zabitý čas?
Milan Lajtoš avatar 14.1.2009 01:47 Milan Lajtoš | skóre: 22 | blog: /blog/babraq
Rozbalit Rozbalit vše Re: Česko-slovenský slovník, nápady a licencie
Mne by sa pár mesiacov dozadu hodil tento počin, ak som tomu správne pochopil. Totiž minule som si nevedel spomenúť ako sa povie drôt po česky, tak som synteticky skúsil, že "draut" alebo "drút" (čo mi znelo celkom česky :) ).

Ten program by mal teda robiť niečo podobné? Že na základe istej sady slov dokáže prekladať aj iné, ktoré v slovníku nemá?
“Every great achievement was once considered impossible.”
14.1.2009 01:54 Marek 'marx' Grác | skóre: 21 | blog: Paralelný blog | Brno / Bratislava
Rozbalit Rozbalit vše Re: Česko-slovenský slovník, nápady a licencie

V podstate áno, ale musíš mať zoznam slov v cieľovom jazyku (stačí to, čo sa používa na kontrolu preklepov).

thingie avatar 14.1.2009 05:17 thingie | skóre: 8
Rozbalit Rozbalit vše Re: Česko-slovenský slovník, nápady a licencie

Po příkladech syntetické češtiny vyrobené ze slovenštiny jsem se skoro sháněl, a nic nenašel.

Růžové lži.
14.1.2009 09:48 PetrHL | skóre: 17 | blog: petr_h | Neratovice
Rozbalit Rozbalit vše Re: Česko-slovenský slovník, nápady a licencie

Slovenštinu slyším denně. Když už nevím co nějaké slovo znamená, použiju www.zoznam.sk a nechám si to přeložit do angličtiny. Toto mě zatím nikdy nezklamalo. Občas to dělám i obráceně a není problém. Sice se to stává velice málo, ale když už ano, poradím si.

Petr

"Do, or do not. There is no 'try.'" -- Jedi Master Yoda | CQRLOG | CQRPROP | HamQTH | Domů
14.1.2009 14:58 Stevko
Rozbalit Rozbalit vše Re: Česko-slovenský slovník, nápady a licencie

Odporúčam používať tiež slovenské slovníky na http://slovnik.juls.savba.sk/ (niekedy sa hodia aj slovákom).

Prcek avatar 15.1.2009 19:51 Prcek | skóre: 43 | Jindřichův Hradec / Brno
Rozbalit Rozbalit vše Re: Česko-slovenský slovník, nápady a licencie
Já když nevím, tak používám www.somvprahe.sk/slovnik
Člověk je takový, jak vypadá... A já vypadám jako pravá, nefalšovaná děvka!!!
16.1.2009 02:11 ello
Rozbalit Rozbalit vše Re: Česko-slovenský slovník, nápady a licencie
Tak som skúsil slovensko-český a ani žeredla, ani žviredla mi nepreložilo... :-))
14.1.2009 08:31 Let_Me_Be | skóre: 20 | blog: cat /proc/idea/current | Brno
Rozbalit Rozbalit vše Re: Česko-slovenský slovník, nápady a licencie

Cesko-slovensky tisteny slovnik mam doma uz tak dlouho, ze uz ani nevim kde jsem ho vzal :) Je to docela pekna bichle v nicem si nezada s cesko-anglickym slovnikem (ktery je ale jednosmerny).

Linked in profil - Můj web - Nemůžete vyhrát hádku s blbcem. Nejdřív vás stáhne na svoji úroveň a pak ubije zkušenostmi.
14.1.2009 10:57 Marek 'marx' Grác | skóre: 21 | blog: Paralelný blog | Brno / Bratislava
Rozbalit Rozbalit vše Re: Česko-slovenský slovník, nápady a licencie

Problém je, že rozumne kvalitný česko-slovenský slovnik (Slovensko-český a česko-slovenský slovník rozdílných výrazů (Jaroslav Nečas, Miloslav Kopecký, ISBN 8004224172) vyšiel v 1989. Jedná sa o diferenčný slovník a bol by perfektným doplnkom k tomu, čo dokážem vytvoriť, ale to by k nemu museli byť jasné práva :( 

14.1.2009 09:39 Tomáš
Rozbalit Rozbalit vše Jak je to se slovy, které v různých jazycích znamenají něco jiného?

Často člověk narazí na slova, která size znějí podobně, ale význam je úplně jiný. Jako příklady mě teď napadají:

  • čerstvý, v ruštině čjorstvyj znamená tvrdý, obdobně v polštině (na DVD Sexmise to bylo chybně přeloženo, ja asi, že)
  • duše, ve všech jazycích, které jsem se kdy učil  existuje podobné slovo (duša, die dou(s)che), které znamená sprcha
  • stůl, v ruštině a němčině stejně znějící slovo znamená židli

Asi bych si vzpomněl na víc příkladů, ale tohle snad stačí, jenom pro zajímavost

14.1.2009 11:38 Marek 'marx' Grác | skóre: 21 | blog: Paralelný blog | Brno / Bratislava
Rozbalit Rozbalit vše Re: Jak je to se slovy, které v různých jazycích znamenají něco jiného

Máš pravdu. Tento problém dokážeš čiastočne eliminovať tým, že sa hráš len s blízkymi / veľmi blízkymi jazykmi. Pri češtine-slovenčine sa nebojuje až tak so slovami, ktoré majú úplne odlišný význam (kel ->kapusta; kapusta -> zelí) ale skor so slovami, ktoré majú podobný význam a významy sú kúsok posunuté. Ak by sme sa hrali so vzdialenejšími jazykmi, tak stále dokážeme mať slušnú úspešnosť, ale tam ide skor o odborné termíny (tj. slová z iného jazyka prisposobené na miestny zápis) - v Prahe sa kedysi robili takéto pokusy ako doplnok k existujúcemu slovníku pre neznáme slová pri preklade z češtiny do ruštiny.

14.1.2009 14:56 Stevko
Rozbalit Rozbalit vše Re: Jak je to se slovy, které v různých jazycích znamenají něco jiného

Také dva klasické príklady na rovnaké slová s iným významom (okrem kapusty) sú "horký" a "chudý". Možno ich je aj viac, ale teraz si nespomeniem.

Do československého slovníka by sa viac asi hodili slová, ktoré sú úplne rozdielne (a to asi nie je ideálna úloha pre vyhľadávač podobných slov). Ja tu jeden papierový slovník rozdielných výrazov mám (z roku 1997), ale je maličký, takže raz za čas sa stane, že tam hľadané slovo nie je (nevie niekto, ako je "oliheň" v slovenčine? Je to sépia?) A keď si ho prezerám, tak sa stane aj, že nepoznám ani český ani slovenský význam niektorých slov (napr. vika (sk) = vikev (cz)), ale to je väčšinou moja neznalosť.

A čo so slovami (prípadne spôsobmi použitia slov), ktoré v jednom z jazykov neexistujú? Práve teraz ma napadne asi len málo: použitie slova "shedat" v konštrukciách ako "shledal jsem to velmi těžkým" (neviem, ako by som to bez úpravy preložil do slovenčiny) alebo české slová "křížala" alebo "povidla". Ako ich preložiť rozumne do slovenčiny? Prípadne slovenské "spevokol" jedným slovom do češtiny (aj keď to možno ide, nepoznám češtinu až tak dobre)?

15.1.2009 08:51 skonciljsem | skóre: 20
Rozbalit Rozbalit vše Re: Jak je to se slovy, které v různých jazycích znamenají něco jiného

Oliheň je také hlavonožec, ale ne sepie, dobře plave. Jiné slovo je kalmar, např. Architeuthis.

Podle Malá Československá encyklopedie na http://cotoje.cz: Loligo – rod desetiramenných hlavonožců. Mají protáhlé, torpédovité tělo. Dobře plavou. U pobřeží Evropy je hojná o. obecná, Loligo vulgaris, asi 50 cm dlouhá.

emorjino avatar 16.1.2009 00:15 emorjino | skóre: 3
Rozbalit Rozbalit vše Re: Jak je to se slovy, které v různých jazycích znamenají něco jiného

moje slovenská macecha říká povidlům lekvar nebo lektvar nebo nějak tak.....

Mám rád Kubuntu, KDE (AmaroK obzvlášť), Firefox, Jabber, Wikipedii, Last.fm, Frozen Bubble.
xxxs avatar 16.1.2009 00:41 xxxs | skóre: 18 | blog: vetvicky
Rozbalit Rozbalit vše Re: Jak je to se slovy, které v různých jazycích znamenají něco jiného
lekvar je spravne.
14.1.2009 13:21 yorik
Rozbalit Rozbalit vše Re: Česko-slovenský slovník, nápady a licencie

Ahoj, robil som uvodnu verziu dat slovenskeho synonymickeho slovnika.

OpenThesaurus-SK - http://www.openthesaurus.tk/ 

 

Slovnik sa potom moze pouzit v OOo a inych projektoch. Projekt zastresuje Zdenko Podobny. (http://www.sk-spell.sk.cx/), ktory sa stara o dalsie projekty ktore maju nieco so Slovencinou.

snad ti tato informacia pomoze pri tvojej dalsej praci

Tibor

15.1.2009 11:58 Marek 'marx' Grác | skóre: 21 | blog: Paralelný blog | Brno / Bratislava
Rozbalit Rozbalit vše Re: Česko-slovenský slovník, nápady a licencie

Vedel by si povedať, ako je užitočné dať možnosť editovať bežným používateľom?

Zdenka samozrejme poznám, do ispellu som pár (desiatok?/stoviek?) chýb reportoval :)

14.1.2009 14:37 Radovan Garabík
Rozbalit Rozbalit vše Re: Česko-slovenský slovník, nápady a licencie
"Čoskoro" sprístupníme slovensko-český slovník, zo začiatku to je len taký glosár, ale bude sa na ňom intenzívne pracovať, a heslá budú pod FOSS licenciami.
bazil avatar 14.1.2009 15:57 bazil | skóre: 33 | blog: sluje | Miroslav
Rozbalit Rozbalit vše Re: Česko-slovenský slovník, nápady a licencie
a hodilo by se to i na indexaci zadaných slov a jejich tvarů v textu? (jakože zadám slovní a text. ono to projede a vyhodí seznam, kde u zadaného slova bude seznam stránek, kde se vyskytuje a bude to brát v potaz i odlyšné tvary toho slova)
15.1.2009 12:02 Marek 'marx' Grác | skóre: 21 | blog: Paralelný blog | Brno / Bratislava
Rozbalit Rozbalit vše Re: Česko-slovenský slovník, nápady a licencie

Ani nie, na to ti stačia omnoho jednoduchšie nástroje. Ak vezmeš vygenerovavané tvary z ispellu, tak to zvládne všetky tvary daného slova (s 'odlyšné' by si to asi už neporadilo)

Založit nové vláknoNahoru

ISSN 1214-1267   www.czech-server.cz
© 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.