mysqldump | iconv > vysledok.txt (pamäť)

Zdravim Vas

Vcera som nechal urobit nasl. prikaz:

nohup mysqldump --user='user' --password='password' --databases DB1 | iconv -c -f"CP852" -t"ISO-8859-2" > /opt2/DB1.txt &

Nakolko sa jednalo o 1,3 GB databazu, zrejme to system nestravil, proces zabil a dnes som si nasiel od neho pozdrav:

Jan 19 15:48:08 LINUX-server kernel: oom-killer: gfp_mask=0x601d2, order=0
Jan 19 15:48:09 LINUX-server kernel: Mem-info:
Jan 19 15:48:09 LINUX-server kernel: DMA per-cpu:
Jan 19 15:48:09 LINUX-server kernel: cpu 0 hot: low 2, high 6, batch 1 used:5
Jan 19 15:48:09 LINUX-server kernel: cpu 0 cold: low 0, high 2, batch 1 used:1
Jan 19 15:48:09 LINUX-server kernel: Normal per-cpu:
Jan 19 15:48:09 LINUX-server kernel: cpu 0 hot: low 62, high 186, batch 31 used:80
Jan 19 15:48:09 LINUX-server kernel: cpu 0 cold: low 0, high 62, batch 31 used:48
Jan 19 15:48:09 LINUX-server kernel: HighMem per-cpu: empty
Jan 19 15:48:09 LINUX-server kernel: Free pages:        5264kB (0kB HighMem)
Jan 19 15:48:09 LINUX-server kernel: Active:60900 inactive:60734 dirty:0 writeback:0 unstable:0 free:1316 slab:2998 mapped:120948 pagetables:841
Jan 19 15:48:09 LINUX-server kernel: DMA free:2072kB min:88kB low:108kB high:132kB active:5500kB inactive:4992kB present:16384kB pages_scanned:11437 all_unreclaimable? yes
Jan 19 15:48:09 LINUX-server kernel: lowmem_reserve[]: 0 496 496
Jan 19 15:48:11 LINUX-server kernel: Normal free:3192kB min:2804kB low:3504kB high:4204kB active:238100kB inactive:237944kB present:507904kB pages_scanned:608421 all_unreclaimable? no
Jan 19 15:48:11 LINUX-server kernel: lowmem_reserve[]: 0 0 0
Jan 19 15:48:12 LINUX-server kernel: HighMem free:0kB min:128kB low:160kB high:192kB active:0kB inactive:0kB present:0kB pages_scanned:0 all_unreclaimable? no
Jan 19 15:48:12 LINUX-server kernel: lowmem_reserve[]: 0 0 0
Jan 19 15:48:12 LINUX-server kernel: DMA: 0*4kB 1*8kB 1*16kB 0*32kB 0*64kB 0*128kB 0*256kB 0*512kB 0*1024kB 1*2048kB 0*4096kB = 2072kB
Jan 19 15:48:12 LINUX-server kernel: Normal: 116*4kB 5*8kB 0*16kB 0*32kB 12*64kB 1*128kB 1*256kB 1*512kB 1*1024kB 0*2048kB 0*4096kB = 3192kB
Jan 19 15:48:12 LINUX-server kernel: HighMem: empty
Jan 19 15:48:12 LINUX-server kernel: Swap cache: add 1188494, delete 1185783, find 604335/681068, race 0+0
Jan 19 15:48:12 LINUX-server kernel: Free swap  = 0kB
Jan 19 15:48:12 LINUX-server kernel: Total swap = 1060280kB
Jan 19 15:48:12 LINUX-server kernel: Free swap:            0kB
Jan 19 15:48:12 LINUX-server kernel: 131072 pages of RAM
Jan 19 15:48:12 LINUX-server kernel: 0 pages of HIGHMEM
Jan 19 15:48:12 LINUX-server kernel: 2260 reserved pages
Jan 19 15:48:13 LINUX-server kernel: 6322 pages shared
Jan 19 15:48:13 LINUX-server kernel: 2711 pages swap cached
Jan 19 15:48:13 LINUX-server kernel: 0 pages dirty
Jan 19 15:48:13 LINUX-server kernel: 0 pages writeback
Jan 19 15:48:13 LINUX-server kernel: 120948 pages mapped
Jan 19 15:48:13 LINUX-server kernel: 2998 pages slab
Jan 19 15:48:13 LINUX-server kernel: 841 pages pagetables
Jan 19 15:48:14 LINUX-server kernel: Out of Memory: Killed process 6623 (iconv).

Ako teda urobit dump (objemnej) celej databazy do 1 suboru avsak uz v inej znakovej sade. Do 1 preto, aby som zbytocne nezaprataval miesto 2 velkymi subormi.

Odpovědi

Velmi divne, ze iconv pri prudovom spracovani zozral vela pamate. Nemohlo to byt, ze pamat zozralo mysql, ale system zabil hlavny proces skupiny, co je pri kolone posledny prikaz? (toto je skor otazka na niekoho dobre znaleho systemu, nez na Vas).

Ako pokus, ci sa iconv nechova divne mozete skusit ten text na konvertovanie z niecoho iba generovat. Napr cyklom vypisovat par kilovy textovy subor a posielat to do iconvu, ci bude rast jeho spotreba pamate. Ak hej, tak je potom podla mna iconv vadny.

If you hold a Unix shell up to your ear, you can you hear the C.

20.1.2006 11:26 Semo | skóre: 45 | blog: Semo
Rozbalit Rozbalit vše Re: mysqldump | iconv > vysledok.txt (pamäť)

No, spravil som si vlastny pokus, pockal 4 minuty, nez OOMK zauradoval a tvrdim, ze iconv je BLBY!

Mam 512MB pamate a podarilo sa mi do iconvu natlacit cca 450MB textu a potom zacal system swapovat. Mam skoro taky isty velky swap (nieco na nom uz bolo, ale nie vela). Celkovo sa mi podarilo do iconvu natlacit cca 800MB textu. Potom sa nic nedialo, potom OOMK zabil iconv. File, do ktoreho bol vystup presmerovany bol prazdny. Takze iconv si cely text natiahne do pamate a zacne tam robit konverziu. K tej sa nedostal, pretoze bol zostreleny.

Po tomto si o iconve myslim, ze je dobry tak akurat na prekodovanie titulkov k filmu, ale inac je na prd.

Pouzite ine konvertovatko (napr. cstocs), alebo tych par znakov v com sa to lisi si najdite a napiste ich ako pravidla pre sed.

If you hold a Unix shell up to your ear, you can you hear the C.

20.1.2006 12:05 Michal Čihař | skóre: 61 | blog: Bláboly | Praha
Rozbalit Rozbalit vše Re: mysqldump | iconv > vysledok.txt (pamäť)

Ono to kvůli multi byte kódováním jinak nejde. Pokud vstup bude soubor, tak se mmapne a neměl by s pamětí být problém.

we have a problem with reading from a desriptor since we must not provide the iconv() function an incomplete character or shift sequence at the end of the buffer. Since we have to deal with arbitrary encodings we must read the whole text in a buffer and process it in one step.

Jinak pro tento případ je nejrozumnější nastavit kódování přímo mysqldumpu...

Weblate - překládání přes web | Gammu SMSD - posílání SMS | Blog

20.1.2006 12:13 Semo | skóre: 45 | blog: Semo
Rozbalit Rozbalit vše Re: mysqldump | iconv > vysledok.txt (pamäť)

Ak to chapem spravne, tak ide o to, ze ak nacitaju do buffera 1000 znakov, tak pocet vystupnych znakov moze byt mensi alebo rovny alebo vacsi ako 1000 a v 1. pripade by vystupny buffer obsahoval menej platnych znakov ako vstupny a v 3. pripade by im ostavali nejake zvysky bufferu neprekodovane, ktore by museli konvertovat v dalsom cykle.

Chapem, ze sa to nepogramuje nejak prijemne, ale da sa. A trebars za cenu isteho zpomalenia by vedel konvertovat aj z deskriptoru lubovolne vleky file. Mal by tam na taketo spravanie prinajmensom option.

If you hold a Unix shell up to your ear, you can you hear the C.

20.1.2006 12:19 Michal Čihař | skóre: 61 | blog: Bláboly | Praha
Rozbalit Rozbalit vše Re: mysqldump | iconv > vysledok.txt (pamäť)

Nejde o počet ale o to, že je potřeba zajistit aby v bufferu nebyla jenom část multi byte znaku. Taky by se to dalo napsat, ale znamenalo by to v podstatě duplikovat dekódování multi byte znaků při plnění bufferu.

Weblate - překládání přes web | Gammu SMSD - posílání SMS | Blog

20.1.2006 12:29 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: mysqldump | iconv > vysledok.txt (pamäť)

Neřekl bych. Prostě si načtu (např. 64 KB) buffer, zkonvertuji z něj, co se dá, zbytek přesunu na začátek, načtu zbytek bufferu atd. Nebo to napíšu v C++ a budu číst z std::wifstream rovnou wchar_t.

20.1.2006 12:37 Michal Čihař | skóre: 61 | blog: Bláboly | Praha
Rozbalit Rozbalit vše Re: mysqldump | iconv > vysledok.txt (pamäť)

Nemůžu číst wchar_t, protože nevím jak to kódování vypadá.

Postupná konverze by fungovala, akorát se to s iconvem hůř implementuje.

Weblate - překládání přes web | Gammu SMSD - posílání SMS | Blog

20.1.2006 13:39 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: mysqldump | iconv > vysledok.txt (pamäť)

To samozřejmě musíte vědět (nebo aspoň předpokládat), jinak jste namydlený i s klasickým postupem. Když půjdu do extrému, jednoduchý filtr by mohl vypadat asi takto (pro jednoduchost a přehlednost jsem vynechal zpracování chyb):

#include <iostream>
#include <locale>

int main(int argc, char* argv[])
{
  if (argc < 3) return 1;
  std::ios_base::sync_with_stdio(false);
  std::wcin.imbue(std::locale(argv[1]));
  std::wcout.imbue(std::locale(argv[2]));
  std::wcout << std::wcin.rdbuf();
  return 0;
}

(jako argument se tomu musí dát celé jméno locale, ne jen kódování).

20.1.2006 14:20 Michal Čihař | skóre: 61 | blog: Bláboly | Praha
Rozbalit Rozbalit vše Re: mysqldump | iconv > vysledok.txt (pamäť)

Protože to chce locale, tak to nejspíš nebude fungovat pro všechna kódování (a vůbec nevím jestli existuje rozumný způsob jak převést kódování na nějaké locale).

Taky to bude určitě pomalejší, protože se dvakrát dekódují multibyte znaky.

Stejně je lepší použít recode, které to umí rovnou a nepoužívat iconv.

Weblate - překládání přes web | Gammu SMSD - posílání SMS | Blog

20.1.2006 14:52 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: mysqldump | iconv > vysledok.txt (pamäť)

Taky to bude určitě pomalejší, protože se dvakrát dekódují multibyte znaky. … Stejně je lepší použít recode, které to umí rovnou a nepoužívat iconv.

Tak jsem to zkusil a výsledky vás asi nemile překvapí:

iconv: user 5.24 s, system 0.56 s
cvt: user 6.60 s, system 0.29 s
recode: user 59.4 s, system 1.34 s

(cvt je ten instantní prográmek z minulého příspěvku). Šlo o konverzi klasické věty "Příliš žluťoučký kůň úpěl ďábelské ódy.\n" (v počtu 10 milionů exemplářů) z UTF-8 do ISO-8859-2. Těch 20 procent ve prospěch iconv sice může někdy hrát roli, ale rozhodně se nedá říci, že řešení standardními prostředky libstdc++ je nějak výrazně pomalejší. Navíc pokud iconv opravdu nejdřív nabufferuje celý vstup, tak pro velké množství dat těch 20 procent rád obětuji a pro malé je to stejně jedno. No a recode, který jste propagoval, je úplně někde jinde…

20.1.2006 12:29 Michal Čihař | skóre: 61 | blog: Bláboly | Praha
Rozbalit Rozbalit vše Re: mysqldump | iconv > vysledok.txt (pamäť)

Jinými slovy: API iconvu na toto není navržené. Recode je na tom lépe a IMHO by nemělo načítat celý soubor.

Weblate - překládání přes web | Gammu SMSD - posílání SMS | Blog

Co takhle parametr mysqldumpu --default-character-set=... ?

20.1.2006 14:10 Stanislav Motyčka | skóre: 9 | Revúca
Rozbalit Rozbalit vše Re: mysqldump | iconv > vysledok.txt (pamäť)

dobry nápad, táto možnosť ma nenapadla hm ... ALE !!! nie som až taký znalec znakových sád, ale -> http://www.abclinuxu.cz/forum/show/117672
Pomocou PHP-skriptu som presypal data z 6000 DBF-súborov do MySQL (kde sa podla štruktúry (je tam 9 rôznych typov dbf-súborov, čo sa týka štruktúry) nahádzali do 9 tabuliek).
Vsadil som na možnosť, že urobim najprv konverziu dbf-súborov, ktoré boli v znakovej sade CP-852 (Vych.Europa) do ISO-8859-2, avšak konverzia 'iconv'-ertom nedopadla dobre, ako by preštruktúrovalo (Zbadal som to pri prehadzovani dat do MySQL).
Tak som teda presyp stopol databázu vyprázdnil, a nasáčkoval som ich do DB v ich pôvodnej znakovej sade (CP-852).
No a teraz nadviažem na začiatok (prečo rovno nedumpovať do chcenej znakovej sady (ISO-8859-2)?). Pretože v DB sú dáta (pre MySQL asi neznámej) znakovej sade CP-852.
Možno sa mýlim. ???

20.1.2006 14:40 razor | skóre: 33
Rozbalit Rozbalit vše Re: mysqldump | iconv > vysledok.txt (pamäť)

No moje instalce mysql cp852 má. Dostupné sady zjistíš: show character set;.

20.1.2006 14:54 razor | skóre: 33
Rozbalit Rozbalit vše Re: mysqldump | iconv > vysledok.txt (pamäť)

Protože si asi při insertování dat nestanovoval v jakém jsou kódování, tak mysql si myslí (defaultně), že ty data jsou v latin1. Čili možná by se hodilo, ty data do mysql znova narvat, a řict mysql, že jsou v cp852. No a pak kdyby si chtěl dump v latin2, tak by měl fungovat ten parametr --default-character-set= bez problémů. Možná akorát budeš muset ještě použít parametr mysqldumpu --character-sets-dir=.... U mě ty sady jsou v /usr/share/mysql/charsets

Dotaz: mysqldump | iconv > vysledok.txt (pamäť)

Odpovědi