(Nielen) anglicko-české slovníkové databázy pre StarDict (diskuse)

Pre autora clanku:v akom formate musia byt data aby sa dal pouzit skript pre millennium. Je niekde skript na konverziu dat do stardict-u v tvare: eng_slovo TAB cz_slovo LF . Ide o databazu slov pre PEKI slovnik a chcel by som to pouzit v stardict-e. Neviem programovat a tak mi ten skript robi problemy. Dik za pomoc

23.6.2006 20:06 belisarivs | skóre: 22 | blog: Psychobláboly
Rozbalit Rozbalit vše Re: (Nielen) anglicko-české slovníkové databázy pre StarDict

Nepouziva PEKI GNU-FDL databazi? V tom pripade tu Michal Cihar pravidelne updatuje tuto databazi pro Stardict.

IRC is just multiplayer notepad.

23.6.2006 20:51 miguel2
Rozbalit Rozbalit vše Re: (Nielen) anglicko-české slovníkové databázy pre StarDict

pouzivam vlastnu databazu ,teraz ju mam upravenu do Peki slovnika, ale chcem tuto databazu nejako dostat do stardict-u.

28.6.2006 08:21 belisarivs | skóre: 22 | blog: Psychobláboly
Rozbalit Rozbalit vše Re: (Nielen) anglicko-české slovníkové databázy pre StarDict

No, pro tabfile je formatovani soubou nasledujici

Jazyk1/tab/jazyk2

V jazyk1 i 2 mohou byt mezery. Je to pak chapano jako jeden vyraz. Takze bud si napisete skript sam, nebo si tu databazi upravite pro tabfile rucne.

IRC is just multiplayer notepad.

23.6.2006 23:00 jose17 | skóre: 44 | blog: Joseho_blog | Bratislava
Rozbalit Rozbalit vše Re: (Nielen) anglicko-české slovníkové databázy pre StarDict

na Vašu prvú otázku by vedel odpovedať skôr belisarvius, ale pohľad na skript trošku napovie (jedná sa o 3 súbory). čo sa týka otázky druhej, tak presne takémuto formátu (def1<tab>def2) rozumie tabfile (súčasť stardictu – adresár tools alebo prípadne použite nami predkompilovanú verziu)

Ja vim, on vi, ty nano!

24.6.2006 01:51 miguel2
Rozbalit Rozbalit vše Re: (Nielen) anglicko-české slovníkové databázy pre StarDict

Vdaka za pomoc uz to ide

31.1.2008 10:46 flim
Rozbalit Rozbalit vše Re: (Nielen) anglicko-české slovníkové databázy pre StarDict

Odkud muzu stahnout Vami predkompilovanou verzi tabfile?

31.1.2008 10:49 jose17 | skóre: 44 | blog: Joseho_blog | Bratislava
Rozbalit Rozbalit vše Re: (Nielen) anglicko-české slovníkové databázy pre StarDict

ozvite sa mi na e-mail a binarku Vam obratom zaslem.

Ja vim, on vi, ty nano!

mv $1-cz-dict.txt $1-cz-dictionary.txt mv cz-$1-dict.txt cz-$1-dictionary.txt rm en-cz-dictionary.txt cz-en-dictionary.txt echo "Vytvaram data pre StarDict slovnik ..." for slovnik in $1"-cz-dictionary.txt" "cz-"$1"-dictionary.txt"

Prosim o help. Pripravil jsem si slovniky z Translatoru podle popisu ve clanku, spustil script convert.sh a vypadl mi tento vypis:

----

Vytvaram zoznam cudzojazycnych vyrazov...anglictina

Vytvaram zoznam ceskych vyrazov...

Vytvaram zoznam typov...

Vytvaram slovnikove udaje pre oba smery...

Traceback (most recent call last):

File "merge_dict.py", line 21, in ?

dictionary.write(en[:-1])

NameError: name 'en' is not defined

Vytvaram data pre StarDict slovnik ...

ls: en-cz-dictionary.txt.idx: není souborem ani adresářem

ls: cz-en-dictionary.txt.idx: není souborem ani adresářem

Skopirujte subory s priponou .ifo, .dict a .idx do /usr/share/stardict/dic/transl alebo ~/.stardict/dic/transl

rm: cannot remove `en-cz-dictionary.txt': není souborem ani adresářem

rm: cannot remove `cz-en-dictionary.txt': není souborem ani adresářem

----

Muzete mi prosim pomoci? Kde mam chybu? Dekuji, Honza.

Aktualni top neni 0.9, anobrz 3.2.8. Top 0.9 je beznadejne zastaraly.

24.6.2006 19:37 miguel2
Rozbalit Rozbalit vše Re: Chyby ve scriptu?

mam podobny problem , ale bez chyby (line 21...) , a vytvoria sa iba .ifo subory. Skusal som ten skript (pre translator) v systeme s kodovanim utf8 , ale data (ancs.txt) boli v iso8859-2. Cely skript neprebehol , ale stihol som skopirovat subor czech.txt este pred tym nez sa vymazal a konverzia sa podarila az na znak hned za vyrazom . Ale neviem kde je chyba lebo skonci to ako v prispevku vyssie: ls: en-cz-dictionary.txt.idx: není souborem ani adresářem ls: cz-en-dictionary.txt.idx: není souborem ani adresářem ...

24.6.2006 20:53 jose17 | skóre: 44 | blog: Joseho_blog | Bratislava
Rozbalit Rozbalit vše Re: Chyby ve scriptu?

Skusal som ten skript (pre translator) v systeme s kodovanim utf8

a práve tu imo bude Váš problém.. (viď odpoveď vyššie)

Ja vim, on vi, ty nano!

26.6.2006 12:40 belisarivs | skóre: 22 | blog: Psychobláboly
Rozbalit Rozbalit vše Re: Chyby ve scriptu?

Jo. Problem je v UTF. Prepni se na iso8859-2 (aspon docasne). Taky je dobre se mrknout na ten skript. Musi se odkomentovat 6. radek (tusim, je to prikaz sed) a radek pro prislusny jazyk. Pak je to v pohode.

IRC is just multiplayer notepad.

Nachystal jsem si do adresáře tabfile, convert.sh, merge_dict.py a zálohované slovníky. Postupoval jsem takto:

1) Vyvořil jsem soubor ancs.txt:

zcat ANCSZAL.15 ANCSZAL.25 ANCSZAL.35 ANCSZAL.45 ANCSZAL.55 > ancs.txt

2) Přepnul jsem v konzoli kodování na ISO8859-2:

export LC_ALL=cs_CZ.ISO-8859-2

3) Ve skriptu conv.sh jsem zakomentoval pomocí # řádek 38:

#rm en-cz-dictionary.txt cz-en-dictionary.txt

4) Spustil jsem

./convert.sh en

5) Vznikly mně tyto soubory:

cz-en-dictionary.txt.dict.dz
cz-en-dictionary.txt.idx
cz-en-dictionary.txt.ifo
en-cz-dictionary.txt.dict.dz
en-cz-dictionary.txt.idx
en-cz-dictionary.txt.ifo

Ty jsem nakopíroval do /usr/share/dict/. Problém je, že v StarDictu nejsou slovíčka EN propojena s CZ a naopak... Zkrátka to hledá anglická slovíčka v anglickém seznamu slov bez toho, že by se zobrazoval překlad do CZ.

Poradíte někdo? Díky.

28.6.2006 01:06 jose17 | skóre: 44 | blog: Joseho_blog | Bratislava
Rozbalit Rozbalit vše Re: Nefunguje

zadáte třeba slovíčko dog, co se zobrazí? vůbec nic? nepíše něco program v konzoli? vyhledává opačně, teda směr česko-anglický? /jose

Ja vim, on vi, ty nano!

28.6.2006 05:21 hank | skóre: 19
Rozbalit Rozbalit vše Re: Nefunguje

Zadám dog a najde dog, ale nezobrazí překlad.

Když se podívám přímo do souboru cz-en-disctionary.txt.dict.dz, tak jsou v něm jen anglická slovíčka. V en-cz-disctionary.txt.dict.dz jsou zase jen česká slovíčka. Je to tak správně? Nemělo být vše v jednom souboru?

Program funguje OK (v konzoli nic nevypisuje), ale nezobrazuje přeložená slovíčka.

28.6.2006 08:17 belisarivs | skóre: 22 | blog: Psychobláboly
Rozbalit Rozbalit vše Re: Nefunguje

Ja bych jeste zkusil (docasne) odskrtnout vsechny slovniky krome jednoho testovaneho (je to v nastaveni slovniku) a pak bych zadaval slova.

Ale mam pocit, ze v tom dz souboru maji byt slovajeom jednoho jazyka a k nim, se pridruzuji indexy podle kterych se teprve vybira preklad.

Spis bych se mrknul na ty soubory ktere lezou do tabfile. Tam by se melo jednat o kombinace slov anglickych a ceskych.

IRC is just multiplayer notepad.

28.6.2006 08:40 hank | skóre: 19
Rozbalit Rozbalit vše Re: Nefunguje

Ja bych jeste zkusil (docasne) odskrtnout vsechny slovniky krome jednoho testovaneho (je to v nastaveni slovniku) a pak bych zadaval slova.

Jo, to jsem samozřejmě zkoušel. Ale jak píšu výše, zobrazí se jen hledané slovíčko, nikoliv jeho jinojazyčný protějšek...

28.6.2006 09:08 jose17 | skóre: 44 | blog: Joseho_blog | Bratislava
Rozbalit Rozbalit vše Re: Nefunguje

jak radí belisarvius - podivejte se na soubory, které zpracovava tabfile (zakomentujte posledni radek - s prikazem rm - v souboru convert.sh). klidne se mi ozvete na icq: 92597537 nebo jose1711@jabber.cz

Ja vim, on vi, ty nano!

28.6.2006 17:31 cirko
Rozbalit Rozbalit vše Re: Nefunguje

Mozno ste si to uz ujasnili cez ICQ/jabber, ale tiez by som rad vedel ako na to. Mam uplne rovnaky problem ako hank a cz-en-dictionary.txt obsahuje slovensky aj anglicky vyraz (podobne aj en-cz-...). Ine slovniky v stardicte (wordnet,...) mi bezia v pohode. Je mozne, ze je problem v tabfile?

28.6.2006 17:35 belisarivs | skóre: 22 | blog: Psychobláboly
Rozbalit Rozbalit vše Re: Nefunguje

No, myslim, ze to tak ma byt. Ted nevim jak je to presne, ale pokud tyto soubory zpracovava tabfile, tak az z nej lezou vysledky. Ale format textu pro tabfile je tak jak jsem tu jiz zminoval. Cili tak jak pisete.

IRC is just multiplayer notepad.

29.6.2006 11:52 cirko
Rozbalit Rozbalit vše Re: Nefunguje

Nakoniec sa mi to poadrilo! Problem bol:

a) vo verzii stardictu (2.4.2), ktora zrejme nepodporuje vystup z tabfile (ten sa objavuje v source az od verzie 2.4.6)

-- potom to uz slapalo az na

b) posunutu slovnu zasobu (o 1 slovo). Problem bol zrejme v nekorektne pridanom slove do PC translatora este vo Windowse - na to stacilo vymazat riadok s tym slovom v czech.txt (nastastie bolo hned na zaciatku a dalo sa lahko odhalit porovnanim czech.txt. a foreign.txt)

btw. na vylepsienie skriptu by som navrhoval pridat na zaciatok

export ZALOHA=$LANG
export LC_ALL=cs_CZ.ISO-8859-2

a na koniec

export LC_ALL=$ZALOHA

nie som ziadny linux-guru, ale myslim, ze to pomoze vyriesit problem kodovania ISO8859-2 vs. 'hocico'

a tiez presunut riadok pred vytvaranim stardict slovnika

rm en-cz-dictionary.txt cz-en-dictionary.txt

na koniec skriptu, aby nebolo potrebne komentovat ho osobitne pre anglicky jazyk

29.6.2006 12:36 jose17 | skóre: 44 | blog: Joseho_blog | Bratislava
Rozbalit Rozbalit vše Re: Nefunguje

díky. zmeny som aplikoval. ak sa Ti chce, môžeš sa mrknúť na novú verziu skriptu a prípadne dať vedieť, či Ti funguje. ešte raz dík. j

Ja vim, on vi, ty nano!

29.6.2006 14:25 cirko
Rozbalit Rozbalit vše Re: Nefunguje

No problem je v tom, ze ked si otvorim novu konzolu LC_ALL nema ziadnu hodnotu (vid echo $LC_ALL), preto ten LANG. Mozno u teba to funguje inak...

28.6.2006 19:35 miguel2
Rozbalit Rozbalit vše Re: Nefunguje

ak ti to pomoze tak som isiel nato komplikovanejsie

1. vytvoril som ancs.txt z tych asi 5 suborov

2.mam syst. s utf8 a tak som kvoli iso8859-2 pouzil knoppix (asi 3.7) a spustil ten skript ./convert.sh en , nezakomentovaval som nic ale je lepsie asi zakomentovat riadky kde je rm foreign.txt czech.txt type.txt aby sa vytvorili a nezmazali (musel som stihnut skopirovat ich pred vymazanim :-) ). vytvorili sa aj .ifo subory.(V knoppixe vypisalo chybu ze mu nieco chyba. Ale to je nepodstatne.)

3. potom som pouzil skript python merge_dict.py a z foreign.txt czech.txt type.txt sa vytvorili en-cz-dictionary.txt a cz-en-dictionary.txt

4.prikazom ./tabfile en-cz.dictionary.txt a ./tabfile cz-en...txt sa vytvorili .dz a .idx subory pre oba smery slovnika. Prikaz nesmie skoncit chybou. Ak skonci, treba odstranit nevhodne znaky z jednotlivych riadkov. Vacsinou mu vadi znak / . Prikaz vypise wordcount-y . (tabfile som pouzil originalny - po skompilovani stardictu)

5. .ifo subory vytvorene v kroku 2 som doplnil: wordcount-y su z bodu 4 a idxfilesize sa zisti prikazom ls -l en-cz-dictionary.idx (a aj pre cz-en-dictionary.idx)

6.treba nakopirovat .dz .idx. .ifo sub. napr. do /usr/share/stardict/example-dict

7.Na overenie ci je slovnik spravne vytvoreny treba pouzit prikaz ./stardict_verify /cestakslovniku/vytvoreny_subor.ifo stardict_verify sa nachadza v adresari /src/tools po skompilovani stardictu.

8.hotovo.

28.6.2006 21:57 belisarivs | skóre: 22 | blog: Psychobláboly
Rozbalit Rozbalit vše Re: Nefunguje

No, ale to dela i ten skript samotny. Navic jeste vytvori ifo soubory a doplni do nich potrebne hodnoty. Mne to v pohode slapalo. Az na to ze jsem se musel docasne prepnout z UTF na iso8859-2.

IRC is just multiplayer notepad.

#!/bin/bash # give the downloaded file a zip extension and within the archive locate # the file containing the word database # preview it and according to its content uncomment one of the lines #perl -pe "s/^ (.*?) : (.*?) :/\1\t\2/" "$1" | cstocs il1 utf8 >jdict-"$1" #perl -pe "s/^ (.*?) \| (.*?) \|/\1\t\2/" "$1" | cstocs il1 utf8 >jdict-"$1" ./tabfile jdict-"$1"

#!/bin/bash tr -d '\r' < "$1" | awk 'getline a {print $0"\t"a} getline b {}' \ | cstocs il1 utf8 | sed -e "s/<br>//gi" -e "s/<hr>//gi" \ | vi -c ":%s/<$[^>]*$>/<\L\1>/g" -c ":w! jdict-$1" -c ":q" - ./tabfile jdict-"$1"