abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    včera 20:11 | Humor

    Stavíte retro počítač nebo Vám na počítači chybí zvuk starého pevného disku? Pomoci může HDD Clicker (YouTube).

    Ladislav Hagara | Komentářů: 9
    včera 16:11 | Nová verze

    Adaptable Linux Platform je nová distribuce od SUSE, která má v budoucnu nahradit SLE (openSUSE Leap); navazuje na stávající SLE Micro. Základem je „neměnný“ HostOS, aplikace běží v kontejnerech. Nyní jsou dostupné obrazy prototypu nazvaného „Les Droites“. Zatím má podporovat především šifrování disku a kontejnerizaci, ale bez větší integrace.

    Fluttershy, yay! | Komentářů: 3
    včera 14:33 | Komunita

    Mesa umí skrze VA-API hardwarovou podporu H.264, H.265 a VC-1. Ve Fedora Linuxu ale musí být tato podpora z důvodů softwarových patentů zakázána.

    Ladislav Hagara | Komentářů: 11
    včera 08:00 | IT novinky

    Intel na dvoudenní akci Intel Innovation 2022 představuje své novinky. První den představil 13. generaci procesorů Intel Core. Nejvýkonnější Intel Core i9-13900K má 24 jader (8 výkonných a 16 úsporných) a 32 vláken a může běžet až na 5,8 GHz. Jeho cena je 589 dolarů.

    Ladislav Hagara | Komentářů: 11
    27.9. 22:22 | IT novinky

    Sociální síť VK (VKontaktě) a další VK aplikace byly odstraněny z App Store [Заявление от VK].

    Ladislav Hagara | Komentářů: 34
    27.9. 21:22 | Nová verze

    Google Chrome 106 byl prohlášen za stabilní. Nejnovější stabilní verze 106.0.5249.61 přináší řadu oprav a vylepšení (YouTube). Opraveno bylo 20 bezpečnostních chyb. Vylepšeny byly také nástroje pro vývojáře (YouTube).

    Ladislav Hagara | Komentářů: 0
    27.9. 19:44 | Nová verze

    Laboratoře CZ.NIC vydaly novou verzi 4.21.0 aplikace Datovka, tj. svobodné multiplatformní desktopové aplikace pro přístup k datovým schránkám a k trvalému uchovávání datových zpráv v lokální databázi. Nové vlastnosti: Nový formát databáze tagů. Staré databáze jsou automaticky převedeny na nový formát. Lze importovat účty z dat exportovaných z mobilní aplikace. Při generování emailů lze zvolit libovolnou kombinaci příloh, zda se má

    … více »
    Ladislav Hagara | Komentářů: 0
    27.9. 11:33 | Nová verze

    RSS čtečka NewsFlash byla vydána v nové major verzi 2.0. Proběhla portace na GTK 4 a libadwaita. Instalovat ji lze také z Flathubu.

    Ladislav Hagara | Komentářů: 2
    26.9. 23:00 | IT novinky Ladislav Hagara | Komentářů: 19
    26.9. 15:33 | Zajímavý článek

    Christian Hergert se rozepsal o novinkách v nejnovější verzi 43.0 integrovaného vývojového prostředí GNOME Builder. Instalovat ji lze už i z Flathubu.

    Ladislav Hagara | Komentářů: 4
    Bavíte se s chatboty na webových stránkách e-shopů, bank, mobilních operátorů atd.?
     (22%)
     (5%)
     (48%)
     (25%)
    Celkem 279 hlasů
     Komentářů: 0
    Rozcestník

    Česko-slovenský slovník, nápady a licencie

    13.1.2009 23:19 | Přečteno: 7835× | Virtuálne

    Pomaly sa blížim k oficiálnemu vydaniu mojho nástroju na hľadanie podobných slov. Primárne slúžiaceho na tvorbu česko-slovenského slovníku (teoreticky aj iné blízke jazyky, trochu som sa hral so slovinsko-srbským slovníkom). Z programátorského hľadiska som sa dostal do stavu, keď sa mi zdá zbytočné programovať ďalšie kusy kódu. Potrebujem však doriešiť praktické problémy.

    Začnime v skratke tým ako to funguje. Na vstupe dostaneme zoznam slovenských slov v základnom tvare a zoznam českých slov, ak máme náhodou aj nejaké informácie o kontexte z veľkých korpusov tak ich možeme použiť. Projekt Trdlo (Transducing Dictionary - ako vznikajú akronymy) má sady pravidiel pre češtinu a slovenčinu, ktoré zvládajú jednoduché transformácie. Potom sa udeje pár krokov, kde získavame stále viac slov so stále menšou presnosťou :). Pri laboratórnych dátach a referenčnom slovníku sme sa dostali na pokrytie/presnosť - 68% / 97% a 82% / 92%. Bez pridania dodatočných dát sa teoreticky dá dostať niekam k 97% / 85%. Ale dosť bolo teórie, aj tak musím napísať ešte poriadny článok.

    Projekt ako taký je pod BSD licencou, takže si s ním každý može robiť skoro čokoľvek. Ak však chceme kvalitnejšie dáta, tak ich potrebujeme prejsť, opraviť či pridať úplne rozdielne slová. Napadlo ma vytvoriť nejaké jednoduché rozhranie, aby si ľudia mohli prezrieť slovník a keď-tak v ňom opraviť chybu, alebo pridať nové slovo. Otázka je, či sa dá čakať nejaký efekt. Predstavoval by som to tak, že dáta ktoré by doplnili užívatelia by boli free (zrejme CC attribution) a ja by som uvolnil svoje skontrolované dáta vtedy keď by moje tvorili len 2/3. Dovtedy by som si ich ponechával pre seba, príp. pre niekoho komerčného, kto by zaplatil kontrolu časti dát.

    Ďalšie využitie tohoto slovníku si viem predstaviť ako pomoc pri prekladaní GNU/FDL česko-anglického slovníku, vyhľadávanie súčasne v češtine aj slovenčine a samozrejme pre strojový preklad, kvoli ktorému som to celé robil. Ak vás napadnú akokoľvek šialené nápady na využitie, prosím prezentujte ich. Cieľom nie je zarobiť na dátach, ale mať ich čo najkvalitnejšie a v ideálnom stave aj maximálne využité.

           

    Hodnocení: 100 %

            špatnédobré        

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    Komentáře

    Vložit další komentář

    14.1.2009 00:39 dad
    Rozbalit Rozbalit vše Re: Česko-slovenský slovník, nápady a licencie

    precetl jsem si to opravdu nekolikrat, ale jaksi jsem nepochopil, co by bylo treba delat. Nebo neni treba delat nic a je to jenom jakesi oznameni, ze uz jste s tim programem skoro u konce?

    14.1.2009 01:21 Marek 'marx' Grác | skóre: 21 | blog: Paralelný blog | Brno / Bratislava
    Rozbalit Rozbalit vše Re: Česko-slovenský slovník, nápady a licencie
    • nápady ako by šiel taký slovník reálne využiť
    • má zmysel sa babrať s interface-om na úpravu slovníku, alebo to je zabitý čas?
    Milan Lajtoš avatar 14.1.2009 01:47 Milan Lajtoš | skóre: 22 | blog: /blog/babraq
    Rozbalit Rozbalit vše Re: Česko-slovenský slovník, nápady a licencie
    Mne by sa pár mesiacov dozadu hodil tento počin, ak som tomu správne pochopil. Totiž minule som si nevedel spomenúť ako sa povie drôt po česky, tak som synteticky skúsil, že "draut" alebo "drút" (čo mi znelo celkom česky :) ).

    Ten program by mal teda robiť niečo podobné? Že na základe istej sady slov dokáže prekladať aj iné, ktoré v slovníku nemá?
    “Every great achievement was once considered impossible.”
    14.1.2009 01:54 Marek 'marx' Grác | skóre: 21 | blog: Paralelný blog | Brno / Bratislava
    Rozbalit Rozbalit vše Re: Česko-slovenský slovník, nápady a licencie

    V podstate áno, ale musíš mať zoznam slov v cieľovom jazyku (stačí to, čo sa používa na kontrolu preklepov).

    thingie avatar 14.1.2009 05:17 thingie | skóre: 8
    Rozbalit Rozbalit vše Re: Česko-slovenský slovník, nápady a licencie

    Po příkladech syntetické češtiny vyrobené ze slovenštiny jsem se skoro sháněl, a nic nenašel.

    Růžové lži.
    14.1.2009 09:48 PetrHL | skóre: 17 | blog: petr_h | Neratovice
    Rozbalit Rozbalit vše Re: Česko-slovenský slovník, nápady a licencie

    Slovenštinu slyším denně. Když už nevím co nějaké slovo znamená, použiju www.zoznam.sk a nechám si to přeložit do angličtiny. Toto mě zatím nikdy nezklamalo. Občas to dělám i obráceně a není problém. Sice se to stává velice málo, ale když už ano, poradím si.

    Petr

    "Do, or do not. There is no 'try.'" -- Jedi Master Yoda | CQRLOG | CQRPROP | HamQTH | Domů
    14.1.2009 14:58 Stevko
    Rozbalit Rozbalit vše Re: Česko-slovenský slovník, nápady a licencie

    Odporúčam používať tiež slovenské slovníky na http://slovnik.juls.savba.sk/ (niekedy sa hodia aj slovákom).

    Prcek avatar 15.1.2009 19:51 Prcek | skóre: 43 | Jindřichův Hradec / Brno
    Rozbalit Rozbalit vše Re: Česko-slovenský slovník, nápady a licencie
    Já když nevím, tak používám www.somvprahe.sk/slovnik
    Člověk je takový, jak vypadá... A já vypadám jako pravá, nefalšovaná děvka!!!
    16.1.2009 02:11 ello
    Rozbalit Rozbalit vše Re: Česko-slovenský slovník, nápady a licencie
    Tak som skúsil slovensko-český a ani žeredla, ani žviredla mi nepreložilo... :-))
    14.1.2009 08:31 Let_Me_Be | skóre: 20 | blog: cat /proc/idea/current | Brno
    Rozbalit Rozbalit vše Re: Česko-slovenský slovník, nápady a licencie

    Cesko-slovensky tisteny slovnik mam doma uz tak dlouho, ze uz ani nevim kde jsem ho vzal :) Je to docela pekna bichle v nicem si nezada s cesko-anglickym slovnikem (ktery je ale jednosmerny).

    Linked in profil - Můj web - Nemůžete vyhrát hádku s blbcem. Nejdřív vás stáhne na svoji úroveň a pak ubije zkušenostmi.
    14.1.2009 10:57 Marek 'marx' Grác | skóre: 21 | blog: Paralelný blog | Brno / Bratislava
    Rozbalit Rozbalit vše Re: Česko-slovenský slovník, nápady a licencie

    Problém je, že rozumne kvalitný česko-slovenský slovnik (Slovensko-český a česko-slovenský slovník rozdílných výrazů (Jaroslav Nečas, Miloslav Kopecký, ISBN 8004224172) vyšiel v 1989. Jedná sa o diferenčný slovník a bol by perfektným doplnkom k tomu, čo dokážem vytvoriť, ale to by k nemu museli byť jasné práva :( 

    14.1.2009 09:39 Tomáš
    Rozbalit Rozbalit vše Jak je to se slovy, které v různých jazycích znamenají něco jiného?

    Často člověk narazí na slova, která size znějí podobně, ale význam je úplně jiný. Jako příklady mě teď napadají:

    • čerstvý, v ruštině čjorstvyj znamená tvrdý, obdobně v polštině (na DVD Sexmise to bylo chybně přeloženo, ja asi, že)
    • duše, ve všech jazycích, které jsem se kdy učil  existuje podobné slovo (duša, die dou(s)che), které znamená sprcha
    • stůl, v ruštině a němčině stejně znějící slovo znamená židli

    Asi bych si vzpomněl na víc příkladů, ale tohle snad stačí, jenom pro zajímavost

    14.1.2009 11:38 Marek 'marx' Grác | skóre: 21 | blog: Paralelný blog | Brno / Bratislava
    Rozbalit Rozbalit vše Re: Jak je to se slovy, které v různých jazycích znamenají něco jiného

    Máš pravdu. Tento problém dokážeš čiastočne eliminovať tým, že sa hráš len s blízkymi / veľmi blízkymi jazykmi. Pri češtine-slovenčine sa nebojuje až tak so slovami, ktoré majú úplne odlišný význam (kel ->kapusta; kapusta -> zelí) ale skor so slovami, ktoré majú podobný význam a významy sú kúsok posunuté. Ak by sme sa hrali so vzdialenejšími jazykmi, tak stále dokážeme mať slušnú úspešnosť, ale tam ide skor o odborné termíny (tj. slová z iného jazyka prisposobené na miestny zápis) - v Prahe sa kedysi robili takéto pokusy ako doplnok k existujúcemu slovníku pre neznáme slová pri preklade z češtiny do ruštiny.

    14.1.2009 14:56 Stevko
    Rozbalit Rozbalit vše Re: Jak je to se slovy, které v různých jazycích znamenají něco jiného

    Také dva klasické príklady na rovnaké slová s iným významom (okrem kapusty) sú "horký" a "chudý". Možno ich je aj viac, ale teraz si nespomeniem.

    Do československého slovníka by sa viac asi hodili slová, ktoré sú úplne rozdielne (a to asi nie je ideálna úloha pre vyhľadávač podobných slov). Ja tu jeden papierový slovník rozdielných výrazov mám (z roku 1997), ale je maličký, takže raz za čas sa stane, že tam hľadané slovo nie je (nevie niekto, ako je "oliheň" v slovenčine? Je to sépia?) A keď si ho prezerám, tak sa stane aj, že nepoznám ani český ani slovenský význam niektorých slov (napr. vika (sk) = vikev (cz)), ale to je väčšinou moja neznalosť.

    A čo so slovami (prípadne spôsobmi použitia slov), ktoré v jednom z jazykov neexistujú? Práve teraz ma napadne asi len málo: použitie slova "shedat" v konštrukciách ako "shledal jsem to velmi těžkým" (neviem, ako by som to bez úpravy preložil do slovenčiny) alebo české slová "křížala" alebo "povidla". Ako ich preložiť rozumne do slovenčiny? Prípadne slovenské "spevokol" jedným slovom do češtiny (aj keď to možno ide, nepoznám češtinu až tak dobre)?

    15.1.2009 08:51 skonciljsem | skóre: 20
    Rozbalit Rozbalit vše Re: Jak je to se slovy, které v různých jazycích znamenají něco jiného

    Oliheň je také hlavonožec, ale ne sepie, dobře plave. Jiné slovo je kalmar, např. Architeuthis.

    Podle Malá Československá encyklopedie na http://cotoje.cz: Loligo – rod desetiramenných hlavonožců. Mají protáhlé, torpédovité tělo. Dobře plavou. U pobřeží Evropy je hojná o. obecná, Loligo vulgaris, asi 50 cm dlouhá.

    emorjino avatar 16.1.2009 00:15 emorjino | skóre: 3
    Rozbalit Rozbalit vše Re: Jak je to se slovy, které v různých jazycích znamenají něco jiného

    moje slovenská macecha říká povidlům lekvar nebo lektvar nebo nějak tak.....

    Mám rád Kubuntu, KDE (AmaroK obzvlášť), Firefox, Jabber, Wikipedii, Last.fm, Frozen Bubble.
    xxxs avatar 16.1.2009 00:41 xxxs | skóre: 23 | blog: vetvicky
    Rozbalit Rozbalit vše Re: Jak je to se slovy, které v různých jazycích znamenají něco jiného
    lekvar je spravne.
    14.1.2009 13:21 yorik
    Rozbalit Rozbalit vše Re: Česko-slovenský slovník, nápady a licencie

    Ahoj, robil som uvodnu verziu dat slovenskeho synonymickeho slovnika.

    OpenThesaurus-SK - http://www.openthesaurus.tk/ 

     

    Slovnik sa potom moze pouzit v OOo a inych projektoch. Projekt zastresuje Zdenko Podobny. (http://www.sk-spell.sk.cx/), ktory sa stara o dalsie projekty ktore maju nieco so Slovencinou.

    snad ti tato informacia pomoze pri tvojej dalsej praci

    Tibor

    15.1.2009 11:58 Marek 'marx' Grác | skóre: 21 | blog: Paralelný blog | Brno / Bratislava
    Rozbalit Rozbalit vše Re: Česko-slovenský slovník, nápady a licencie

    Vedel by si povedať, ako je užitočné dať možnosť editovať bežným používateľom?

    Zdenka samozrejme poznám, do ispellu som pár (desiatok?/stoviek?) chýb reportoval :)

    14.1.2009 14:37 Radovan Garabík
    Rozbalit Rozbalit vše Re: Česko-slovenský slovník, nápady a licencie
    "Čoskoro" sprístupníme slovensko-český slovník, zo začiatku to je len taký glosár, ale bude sa na ňom intenzívne pracovať, a heslá budú pod FOSS licenciami.
    bazil avatar 14.1.2009 15:57 bazil | skóre: 33 | blog: sluje | Miroslav
    Rozbalit Rozbalit vše Re: Česko-slovenský slovník, nápady a licencie
    a hodilo by se to i na indexaci zadaných slov a jejich tvarů v textu? (jakože zadám slovní a text. ono to projede a vyhodí seznam, kde u zadaného slova bude seznam stránek, kde se vyskytuje a bude to brát v potaz i odlyšné tvary toho slova)
    15.1.2009 12:02 Marek 'marx' Grác | skóre: 21 | blog: Paralelný blog | Brno / Bratislava
    Rozbalit Rozbalit vše Re: Česko-slovenský slovník, nápady a licencie

    Ani nie, na to ti stačia omnoho jednoduchšie nástroje. Ak vezmeš vygenerovavané tvary z ispellu, tak to zvládne všetky tvary daného slova (s 'odlyšné' by si to asi už neporadilo)

    Založit nové vláknoNahoru

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.