abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
eParkomat, startup z ČR, postoupil mezi finalisty evropského akcelerátoru ChallengeUp!
Robot na pivo mu otevřel dveře k opravdovému byznysu
Internet věcí: Propojený svět? Už se to blíží...
včera 17:02 | Pozvánky

Přijďte si popovídat o open source obecně a openSUSE konkrétně s dalšími uživateli a vývojáři. Oslava nového vydání openSUSE Leap se uskuteční 16. prosince od 17:00 v nových prostorách firmy SUSE v Praze. K dispozici bude nějaké občerstvení a DVD pro ty, kdo je sbírají nebo ještě mají mechaniku. Po párty v kanceláři se bude pokračovat v některé z hospod v okolí.

Miška | Komentářů: 7
včera 14:55 | Zajímavý software

Byla vydána verze Alpha 1.0 otevřeného operačního systému pro chytré hodinky AsteroidOS. Podporovány jsou hodinky LG G Watch, LG G Watch Urbane, Asus ZenWatch 2 a Sony Smartwatch 3. Ukázka ovládání hodinek na YouTube. Jaroslav Řezník přednášel o AsteroidOS na chytrých hodinkách (videozáznam) na letošní konferenci OpenAlt.

Ladislav Hagara | Komentářů: 0
včera 13:30 | Zajímavý software

Byly uvolněny zdrojové kódy známé rogue-like hry DoomRL. Počátky hry jsou v roce 2002. Je napsána ve FreePascalu a zdrojový kód je nyní k dispozici na GitHubu pod licencí GNU GPL 2.0. Autor pracuje na nové hře Jupiter Hell, která je moderním nástupcem DoomRL a na jejíž vývoj shání peníze prostřednictvím Kickstarteru.

Blaazen | Komentářů: 0
včera 13:15 | Pozvánky

Přijďte s námi oslavit vydání Fedory 25. Na programu budou přednášky o novinkách, diskuse, neřízený networking atd. Release Party se bude konat 16. prosince v prostorách společnosti Etnetera. Na party budou volně k dispozici také propagační materiály, nová DVD s Fedorou 25 a samozřejmě občerstvení. Přednášky budou probíhat v češtině. Pro více informací se můžete podívat na web MojeFedora.cz. Jen připomínám, že tentokrát jsme zavedli

… více »
frantisekz | Komentářů: 0
9.12. 16:38 | Komunita

Byly zveřejněny videozáznamy přednášek a workshopů z letošní konference OpenAlt konané 5. a 6. listopadu v Brně. K videozáznamům lze přistupovat ze stránky na SuperLectures nebo přes program konference, detaily o vybrané přednášce nebo workshopu a dále kliknutím na ikonku filmového pásu. Celkově bylo zpracováno 65 hodin z 89 přednášek a workshopů.

Ladislav Hagara | Komentářů: 0
9.12. 11:30 | Komunita

Bylo oznámeno, že bude proveden bezpečnostní audit zdrojových kódů open source softwaru pro implementaci virtuálních privátních sítí OpenVPN. Audit provede Matthew D. Green (blog), uznávaný kryptolog a profesor na Univerzitě Johnse Hopkinse. Auditována bude verze 2.4 (aktuálně RC 1, stabilní verze je 2.3.14). Audit bude financován společností Private Internet Access [reddit].

Ladislav Hagara | Komentářů: 4
9.12. 06:00 | Komunita

Na YouTube byl publikován Blender Institute Reel 2016, ani ne dvouminutový sestřih z filmů, které vznikly za posledních 10 let díky Blender Institutu. V institutu aktuálně pracují na novém filmu Agent 327. Dění kolem filmu lze sledovat na Blender Cloudu. Videoukázka Agenta 327 z června letošního roku na YouTube.

Ladislav Hagara | Komentářů: 0
9.12. 01:02 | Zajímavý článek

Minulý týden byly vydány verze 1.2.3 a 1.1.7 webového poštovního klienta Roundcube. V oznámení o vydání bylo zmíněno řešení bezpečnostního problému nalezeného společností RIPS a souvisejícího s voláním funkce mail() v PHP. Tento týden byly zveřejněny podrobnosti. Útočník mohl pomocí speciálně připraveného emailu spustit na serveru libovolný příkaz. Stejně, jak je popsáno v článku Exploit PHP’s mail() to get remote code execution z roku 2014.

Ladislav Hagara | Komentářů: 1
8.12. 16:00 | Nová verze

Byla vydána verze 0.98 svobodného nelineárního video editoru Pitivi. Z novinek lze zmínit například přizpůsobitelné klávesové zkratky. Videoukázka práce s nejnovější verzí Pitivi na YouTube.

Ladislav Hagara | Komentářů: 1
8.12. 15:00 | Zajímavý software

Stop motion je technika animace, při níž je reálný objekt mezi jednotlivými snímky ručně upravován a posouván o malé úseky, tak aby po spojení vyvolala animace dojem spojitosti. Jaký software lze pro stop motion použít na Linuxu? Článek na OMG! Ubuntu! představuje Heron Animation. Ten bohužel podporuje pouze webové kamery. Podpora digitálních zrcadlovek je začleněna například v programu qStopMotion.

Ladislav Hagara | Komentářů: 5
Kolik máte dat ve svém domovském adresáři na svém primárním osobním počítači?
 (32%)
 (23%)
 (29%)
 (7%)
 (5%)
 (3%)
Celkem 810 hlasů
 Komentářů: 50, poslední 29.11. 15:50
Rozcestník
Reklama

Dotaz: latin1 a latin2 do utf8

mahoney avatar 23.12.2011 20:36 mahoney | Pelhřimov
latin1 a latin2 do utf8
Přečteno: 781×
dobry den,

mam tady jeden dump stare databaze, kde jsou namichane znaky z latin1 i latin2.

neznate prosim nekdo postup, jak takovy soubor prevest do utf8?

dekuji


Řešení dotazu:


Odpovědi

23.12.2011 20:39 lightbringer
Rozbalit Rozbalit vše Re: latin1 a latin2 do utf8
Iconv?
mahoney avatar 23.12.2011 20:46 mahoney | Pelhřimov
Rozbalit Rozbalit vše Re: latin1 a latin2 do utf8
:-) no jo, ale jak?

$ iconv -f latin1 -t latin2 dump.sql > /dev/null

iconv: illegal input sequence at position 2471

$ iconv -f latin2 -t latin1 dump.sql > /dev/null

iconv: illegal input sequence at position 2471

ja spis myslim, ze bude potreba nejakeho skriptu, ktery _selektivne_ prevede znaky na jedno spolecne kodovani. a mozna uz takovy skript nekdo napsal. jenomze se mi ho nedari vygooglit

Josef Kufner avatar 23.12.2011 21:32 Josef Kufner | skóre: 66
Rozbalit Rozbalit vše Re: latin1 a latin2 do utf8
iconv -f latin1 -t utf8 ...
iconv -f latin2 -t utf8 ...
Latin1 a Latin2 nelze bezeztráty převádět tam a zpět, protože ty kódování prostě obsahují každé něco jiného.

Pokud chceš ztrátový převod, tak:
iconv -f neco -t neco_jineho//translit ...
Vybírá to vizuálně podobné znaky.
Hello world ! Segmentation fault (core dumped)
Řešení 1× (mahoney (tazatel))
23.12.2011 21:49 l0gik | skóre: 22
Rozbalit Rozbalit vše Re: latin1 a latin2 do utf8
Jestli to chápu, tak máš ve stejném sloupci různé znakové sady (pokud je vždy sloupec stejný, tak pomocí SQL příkazů to před exportem opravíš snadno, to asi víš). Navíc evidentně to není jen "cestina" v latin1, protože ta by šla zkonvertovat do latin2, opravdu se tam využívají znaky z obou znakových sad. V tu chvíli seš prostě "v kopru", protože principiálně nejde rozlišit, kterej řádek je v kterym kódování. Jak bys to chtěl udělat? To jde udělat jen podle významu a není vyloučeno, že ta samá posloupnost bytů bude mít význa v obou kódováních.

Jediný, co můžeš, je udělat nějakou fci, která se to pokusí heuristicky poznat, např. tak, že nadefinuješ "raritu znaků", podle toho jak často se (ne)vyskytují v daném jazyce a nějakou hodnotící fci (např. sumu kvadrátů rarity) se pokusíš odhadnout, jestli je danej řádek v tom nebo v tom kódování a převíst řádek po řádce nějakym skriptem (iconv je i např. v php). Nebo zkusit lookup jednotlivých slov proti slovníku - pokud nějakej máš, popř. nastudovat formát mozilly.

Jinak samozřejmě latin1 a latin2 jsou nepoměřitelné množiny kódování, takže nemůžeš konvertovat jednu do druhý, musíš je vždy konvertovat na nějakou nadmnožinu (čili utf8). Konverze z latin1 do latin2 ti selže na znacích, které jsou v latin1 ale ne v latin2. Zdali to selže ale nemůžeš brát jako bernou minci pro to, jaké je to kódování: selhání Ti pouze vybere řádky, u kterých je třeba rozhodnout, zdali jsou v latin1 nebo latin2, protože prostě v těch řádkách je znak, kterej má jinej "smysl" v latin1 a v latin2 - nijak z toho nepoznáš, jestli tam má bejt ř, nebo ø.

Teoreticky bys teda moh udělat dump s tím, že každej řádek bude na novym řádku (popř. nahradit ), ( za novej řádek), provýst konverzi pomocí iconv s iconv -f latin1 -t latin2//ignore || iconv -t latin1 -f latin2 a pak diffem porovnat. A pokud bude jen málo lišících se řádek (tzn většina bude "cesky"), tak to rozhodnout manuálně. Ale pokud je v databázi čeština, tak se Ti bude lišit každej řádek, kde je např. š.

23.12.2011 21:00 Kit
Rozbalit Rozbalit vše Re: latin1 a latin2 do utf8
Používám recode. S parametrem -f občas snese i divné vstupní kódování. Rozhodně bych se nepokoušel převádět latin2 do latin1, protože tím přijdeš o všechny znaky s háčky. Spíš bych konvertoval latin2 do utf8 a pak teprve řešil zbytek.

Můžeš zkusit i standardní utilitu tr, ale asi ti dá trochu víc zabrat konfigurace parametrů.
Řešení 1× (mahoney (tazatel))
23.12.2011 22:39 Šangala | skóre: 56 | blog: Dutá Vrba - Wally
Rozbalit Rozbalit vše Re: latin1 a latin2 do utf8
Podle mě nelze obecně převést text mixovaný z latin1 a latin2 do utf-8.
Ale tipl bych si, že jsou to různé sloupce s různým kováním, pak je tedy nutné takto je překládat.
Nejsnazší je asi dump binárně nahrnou do DB s tím, že struktura se před sypáním dat opraví tak, aby jednotlivé sloupce měli patřičné kódování latin1, latin2 a pak se to dumpne ven v UTF-8.
Jinak by se musel parsovat dump a to by mě teda nebavilo :-).
To, že trpíš stihomamem, ještě neznamená, že po tobě nejdou. ⰞⰏⰉⰓⰀⰜⰉ ⰗⰞⰅⰜⰘ ⰈⰅⰏⰉ ⰒⰑⰎⰉⰁⰕⰅ ⰏⰉ ⰒⰓⰄⰅⰎ ·:⁖⁘⁙†

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267   www.czech-server.cz
© 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.