raid 1 a load average

nainstaloval jsem prvne raid1 sestavajici ze dvou zarizeni, md0 a md1

dv -vh vypada nasledovne:

Filesystem           1K-blocks      Used Available Use% Mounted on
/dev/mapper/VolGroup00-LogVol01
                      69418416   2316492  63518744   4% /
/dev/mapper/VolGroup00-LogVol05
                     247967484   3165612 232002692   2% /usr0
/dev/mapper/VolGroup00-LogVol06
                     299008360    195552 283379080   1% /usr1
/dev/mapper/VolGroup00-LogVol03
                      29741864    197976  28008708   1% /tmp
/dev/mapper/VolGroup00-LogVol04
                      49580256    266912  46754164   1% /var
/dev/mapper/VolGroup00-LogVol02
                     247967484   3265908 231902396   2% /data
/dev/md0                497765     23734    448332   6% /boot
tmpfs                  4012900         0   4012900   0% /dev/shm

Server nedela nic, ale presto je load average 0.2. To by nebylo nic tak strasneho, ale presto mam obavy, zda se nejedna o nejakou chybu. Prikaz 'top -i -d 1' ukazuje pouze 3 procesy (top, md1_raid1, kjournald). Ten md1_raid1 proces vyskoci kazdych 3-10 vterin, ma sice nasbirano za 3 dny 69 minut CPU casu, ale to je myslim zpusobeno synchronizaci kolem 4. hodiny rano, pres den se ta hodnota TIME (v prikazu ps) meni o par vterin za hodinu. Otazka: je to normalni, bezny stav u raidu?

Ne, mám 0.00. Neběží ještě rebuild? (asi ne, terabajt je za pár hodin hotový) Není v htopu vidět něco víc?

19.1.2015 10:40 Ondrej
Rozbalit Rozbalit vše Re: raid 1 a load average

diky za reakci a nakopnuti, ze s raidem je ten load 0.00 mozny.

Zkousel jsem vsechny mozne utility htop,procinfo ... , ale to nic neprineslo. Pro info, htop napr. u me neukazoval ty procesy, ktere jsou na vypisu v hranatych zavorkach ( napr. prave ten [md1_raid1]) ..

Tak jsem vzal jednu service za druhou a zkousel je vypnout, to taky nic neprineslo.

Board ma 2 sitovky a kdyz jsem eth1 vypnul(down) tak se load uklidnil. :-)

Ok, mel jsem u kazde sitovky vlastni gateway a mozna to asi system matlo. Zatim jsem to mel u takovyh systemu tak, ze do internetu se slo vzdy jen pres jedno rozhrani. Protoze v sitich nejsem odbornik, tak nevim, jestli je to ta pricina.

V kazdem pripade mohu tedy potvrdit, ze software raid1 nejaky zvyseny load nezpusobuje :-)

19.1.2015 14:11 nobody
Rozbalit Rozbalit vše Re: raid 1 a load average

mdX_raidX je vlakno kernelu, v htop lze zap/vyp zobrazeni vlaken(shift+h) a kernel_vlaken(shift+k)
pokud je zaple oboje zobrazuje se: Tasks: 141, 245 thr, 77 kthr; 1 running

19.1.2015 22:56 d.c. | skóre: 30
Rozbalit Rozbalit vše Re: raid 1 a load average

A neni to load od toho topu?

21.1.2015 15:49 Jary | skóre: 30 | blog: Jary má blog | Dům
Rozbalit Rozbalit vše Re: raid 1 a load average

Domnívám se, že pokud nějaký program je spouštěn často, ale hned skončí, htop ho neukáže, ale load to zvedá. Takže je třeba se koukat co je spouštěno. strace to nedokáže. Jedinný tool který znám, se kterým se to dá udělat je systemtap:

sudo stap - <<EOF
probe syscall.vfork.return {
	return_trace(name, $return)
}

probe syscall.fork.return {
	return_trace(name, $return)
}

probe syscall.clone.return {
	return_trace(name, $return)
}

function return_trace(name, retval) {
	printf("%s: %d -> %d\n", name, pid(), retval);
}


probe syscall.execve {
	printf("%s: %d %s\n", name, pid(), args);
}
EOF

Pro použití stap budeš potřebovat nainstalovat kernel debug symboly.

Vypíše to něco jako

execve: 22761 "ls" "--color=tty"
clone: 22638 -> 22762
clone: 22649 -> 22763
clone: 22652 -> 22764
clone: 22698 -> 22765
clone: 22713 -> 22766
clone: 22740 -> 22767
clone: 22650 -> 22768
clone: 21838 -> 22769
clone: 21838 -> 22770
clone: 22752 -> 22771
execve: 22771 "ip" "a"
clone: 21838 -> 22772
clone: 22752 -> 22773
execve: 22773 "ls" "--color=tty"
clone: 21838 -> 22774
clone: 22752 -> 22775
execve: 22775 "ps"
clone: 21838 -> 22776
^Cclone: 21838 -> 22777

.sig virus 3.2_cz: Prosím, okopírujte tento text do vaší patičky. GitHub

6.2.2015 12:31 Ondrej
Rozbalit Rozbalit vše Re: raid 1 a load average

diky za reakci, ktera se bude mozna v budoucnu hodit. Pokusim se to vyuzit pri verifikaci meho problemu, ktery se nyni jevi nasledovne (je to fakt neuveritelne):

Jak jsem psal nahore, situace se zlepsila pote, co jsem odpojil eth1. Ale to nebylo reseni problemu. Musim priznat, ze pripojeni pres eth0 se delo pres RJ45 konektor s ulomenou 'packou' a ja se domnivam, ze kdyz jsem odpojoval ten eth1 tak jsem zase zastrcil poradne ten eth0 a tim se to spravilo. Den pote byla u servru uklizecka, ja jsem zjistil zase load kolen 0.17 a najednou me napadlo se podivat, jestli je konektor poradne zastrceny. A pote co jsem ho poradne zastcil , klesl load behem 2 minut na nulu. Server uz jsem vyexpedoval, takze to nemohu overit, ale budu experimentovat s tim kabelem na jinem zarizeni.

No jo, ja vim, ze je to pritazene za vlasy, ale jinak si to nedovedu vysvetlit. Server je nyni v nasazeni asi tyden a kontroluji load kazdy den a je to na nule.

Muj problem budu resit nasledovne: http://makezine.com/2010/08/07/repair-a-broken-ethernet-plug/ :-)

Dotaz: raid 1 a load average

Odpovědi