Portál AbcLinuxu, 7. května 2025 10:02

Dotaz: pomalý raid-check

10.2.2019 19:24 lertimir | skóre: 64 | blog: Par_slov
pomalý raid-check
Přečteno: 390×
Odpovědět | Admin
Příloha:
Jako poslední relikt, kde nemám btrfs jsou v domácím servříku 4 disky, které mají mdraid. A bohužel se mi v poslední době silně zpomalila kontrola na něm. Dříve spuštený raid-check (Centos distribuce, Debian distribuce má tuším checkarray s podobnou funkcionalitou) četl disky rychlostí cca 70-100MB/s v současnosti to dopadá takto.
cat /proc/mdstat
Personalities : [raid10] [raid6] [raid5] [raid4] 
md126 : active raid5 sdc2[1] sde2[4] sdd2[2] sdb2[0]
      7296182592 blocks super 1.2 level 5, 64k chunk, algorithm 2 [4/4] [UUUU]
      [=========>...........]  check = 48.5% (1180608128/2432060864) finish=1164.6min speed=17908K/sec
      bitmap: 0/19 pages [0KB], 65536KB chunk

md127 : active raid10 sde1[4] sdd1[2] sdb1[0] sdc1[1]
      995885056 blocks super 1.2 128K chunks 2 far-copies [4/4] [UUUU]
        resync=DELAYED
      bitmap: 0/8 pages [0KB], 65536KB chunk
jsem na nějakých 18MB/s, což je tedy dost děs. Přitom iostat je
iostat -xdmcz 1 
Linux 3.10.0-957.5.1.el7.x86_64 (gondor.doma)   02/10/2019      _x86_64_        (2 CPU)

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
          19.21   10.85   17.40    6.10    0.00   46.43

Device:         rrqm/s   wrqm/s     r/s     w/s    rMB/s    wMB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
sda               1.61     6.76   11.59   14.50     0.23     0.18    32.50     1.03   39.51    3.72   68.13   1.72   4.49
sdb            3066.47    14.55  139.10    8.45    13.60     0.21   191.69     1.07    7.23    2.98   77.13   1.53  22.54
sdc            3065.58    14.60  141.17    8.69    13.60     0.21   188.80     1.14    7.60    3.09   80.82   1.53  22.90
sdd            3067.27    14.61  141.12    8.62    13.60     0.21   188.91     1.10    7.34    3.11   76.48   1.53  22.95
sde            3067.21    14.68  138.77    8.35    13.58     0.21   192.02     3.61   24.51    4.90  350.38   1.94  28.51
dm-0              0.00     0.00   12.78   20.23     0.22     0.18    24.92     1.29   38.94    4.60   60.65   1.34   4.43
dm-1              0.00     0.00    0.42    1.04     0.00     0.00     8.05     0.01    8.21    7.75    8.40   0.57   0.08
dm-2              0.00     0.00    0.42    1.04     0.00     0.00     8.04     0.02   10.49    8.24   11.41   0.64   0.09
dm-3              0.00     0.00   12.78   19.97     0.22     0.18    25.12     4.96  151.40    5.24  244.94   1.56   5.12
md127             0.00     0.00  165.18   44.37     4.36     0.42    46.77     0.00    0.00    0.00    0.00   0.00   0.00
md126             0.00     0.00   22.92    0.56     0.64     0.00    56.42     0.00    0.00    0.00    0.00   0.00   0.00
dm-4              0.00     0.00   22.92    0.54     0.64     0.00    56.46     0.35   15.12    9.97  232.80   3.51   8.24
dm-5              0.00     0.00  165.18   44.31     4.36     0.42    46.79    39.64  189.13   11.72  850.55   1.25  26.23

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
          50.00    0.00   15.10    0.00    0.00   34.90

Device:         rrqm/s   wrqm/s     r/s     w/s    rMB/s    wMB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
sdb            9052.00     0.00  295.00    2.00    36.75     0.00   253.44     0.34    1.21    1.15   10.00   1.12  33.20
sdc            9053.00     0.00  293.00    2.00    36.57     0.00   253.89     0.35    1.18    1.13    8.50   1.15  33.90
sdd            9052.00     0.00  293.00    2.00    36.56     0.00   253.86     0.36    1.21    1.15    9.00   1.19  35.20
sde            9053.00     0.00  293.00    2.00    36.62     0.00   254.27     0.39    1.33    1.18   22.00   1.32  39.00
md126             0.00     0.00    7.00    0.00     0.38     0.00   109.71     0.00    0.00    0.00    0.00   0.00   0.00
dm-4              0.00     0.00    7.00    0.00     0.38     0.00   109.71     0.06    8.29    8.29    0.00   1.86   1.30

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
          17.35   29.08   11.73    0.00    0.00   41.84

Device:         rrqm/s   wrqm/s     r/s     w/s    rMB/s    wMB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
sda               0.00     0.00    0.00   13.00     0.00     0.16    25.23     0.00    0.23    0.00    0.23   0.23   0.30
sdb            2573.00     0.00   84.00    0.00    10.44     0.00   254.48     0.12    1.43    1.43    0.00   1.30  10.90
sdc            2574.00     0.00   84.00    0.00    10.50     0.00   255.90     0.12    1.40    1.40    0.00   1.32  11.10
sdd            2573.00     0.00   85.00    0.00    10.50     0.00   252.99     0.09    1.07    1.07    0.00   1.07   9.10
sde            2574.00     0.00   84.00    0.00    10.44     0.00   254.57     0.10    1.18    1.18    0.00   1.17   9.80
dm-0              0.00     0.00    0.00   13.00     0.00     0.16    25.23     0.00    0.23    0.00    0.23   0.23   0.30
dm-3              0.00     0.00    0.00   13.00     0.00     0.16    25.23     0.01    1.08    0.00    1.08   1.08   1.40
md126             0.00     0.00    7.00    0.00     0.38     0.00   109.71     0.00    0.00    0.00    0.00   0.00   0.00
dm-4              0.00     0.00    7.00    0.00     0.38     0.00   109.71     0.04    6.00    6.00    0.00   2.00   1.40

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           0.51   47.45    8.16    0.00    0.00   43.88

Device:         rrqm/s   wrqm/s     r/s     w/s    rMB/s    wMB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
sdb            2077.00     0.00   67.00    0.00     8.38     0.00   256.00     0.08    1.16    1.16    0.00   1.16   7.80
sdc            2077.00     0.00   67.00    0.00     8.38     0.00   256.00     0.08    1.24    1.24    0.00   1.24   8.30
sdd            2077.00     0.00   67.00    0.00     8.38     0.00   256.00     0.09    1.36    1.36    0.00   1.36   9.10
sde            2077.00     0.00   67.00    0.00     8.38     0.00   256.00     0.08    1.16    1.16    0.00   1.16   7.80
a nevidím zde nic, co by mělo situaci limitovat. Podobně atop dává
ATOP - gondor                                 2019/02/10  18:32:33                                 --------------                                 10s elapsed
PRC | sys    2.70s | user   0.23s | #proc    186  | #trun      2 | #tslpi   253 | #tslpu     1 | #zombie    0 | clones     2  |              | #exit      2 |
CPU | sys      23% | user      2% | irq       1%  | idle    173% | wait      1% |              | steal     0% | guest     0%  | curf  800MHz | curscal  50% |
cpu | sys      16% | user      1% | irq       0%  | idle     83% | cpu000 w  0% |              | steal     0% | guest     0%  | curf  800MHz | curscal  50% |
cpu | sys       7% | user      2% | irq       0%  | idle     91% | cpu001 w  1% |              | steal     0% | guest     0%  | curf  800MHz | curscal  50% |
CPL | avg1    1.59 | avg5    1.62 | avg15   1.60  |              |              | csw     9682 | intr    8886 |               |              | numcpu     2 |
MEM | tot     3.3G | free  152.9M | cache   2.2G  | buff  420.9M | slab  207.3M | shmem  25.0M | shrss   1.2M | vmbal   0.0M  | hptot   0.0M | hpuse   0.0M |
SWP | tot     4.0G | free    3.8G |               |              |              |              |              |               | vmcom   1.7G | vmlim   5.7G |
LVM |     uloziste | busy      1% | read      70  | write      0 | KiB/r     54 | KiB/w      0 | MBr/s    0.4 | MBw/s    0.0  | avq     4.69 | avio 1.80 ms |
LVM | 4bec-b9a1-1d | busy      1% | read       0  | write     85 | KiB/r      0 | KiB/w      5 | MBr/s    0.0 | MBw/s    0.0  | avq    10.50 | avio 1.19 ms |
LVM | cl_gondor-01 | busy      1% | read       0  | write     87 | KiB/r      0 | KiB/w      5 | MBr/s    0.0 | MBw/s    0.0  | avq     5.00 | avio 1.02 ms |
MDD |        md126 | busy      0% | read      70  | write      0 | KiB/r     54 | KiB/w      0 | MBr/s    0.4 | MBw/s    0.0  | avq     0.00 | avio 0.00 ms |
DSK |          sdc | busy     17% | read    1266  | write      2 | KiB/r    127 | KiB/w      2 | MBr/s   15.8 | MBw/s    0.0  | avq     1.03 | avio 1.29 ms |
DSK |          sdd | busy     17% | read    1271  | write      2 | KiB/r    127 | KiB/w      2 | MBr/s   15.8 | MBw/s    0.0  | avq     1.05 | avio 1.29 ms |
DSK |          sdb | busy     17% | read    1271  | write      2 | KiB/r    127 | KiB/w      2 | MBr/s   15.8 | MBw/s    0.0  | avq     1.07 | avio 1.28 ms |
DSK |          sde | busy     16% | read    1266  | write      2 | KiB/r    127 | KiB/w      2 | MBr/s   15.8 | MBw/s    0.0  | avq     1.00 | avio 1.23 ms |
DSK |          sda | busy      1% | read       0  | write     12 | KiB/r      0 | KiB/w     37 | MBr/s    0.0 | MBw/s    0.0  | avq     1.12 | avio 7.42 ms |
NFS | rpc      120 | cread    120 | cwrit      0  | MBcr/s   0.4 | MBcw/s   0.0 | nettcp   120 | netudp     0 | badfmt     0  | badaut     0 | badcln     0 |
NET | transport    | tcpi     630 | tcpo    2896  | udpi       7 | udpo       7 | tcpao      0 | tcppo      1 | tcprs      0  | tcpie      0 | udpie      0 |
NET | network      | ipi      637 | ipo     2903  | ipfrw      0 | deliv    637 |              |              |               | icmpi      0 | icmpo      0 |
NET | enp4s0    0% | pcki     631 | pcko    2897  | sp 1000 Mbps | si   54 Kbps | so 3314 Kbps | erri       0 | erro       0  | drpi       0 | drpo       0 |
NET | lo      ---- | pcki       6 | pcko       6  | sp    0 Mbps | si    2 Kbps | so    2 Kbps | erri       0 | erro       0  | drpi       0 | drpo       0 
nic není na limitu, nic není červené. Předpokládám, že se check zpomalil díky nějaké aktualizaci. Jediné na, co jsem přišel je, že v tree zobrazení htop je crond->bash raid-check->sleep 60. Takže to vypadá že skript volá sleep, ale netuším proč. (přihodil jsem skript jako přílohu) Hlavně nevím, co se změnilo, protože jsem porovnal skript s půl roku starou archivní zálohou a je zcela stejný, a v té době zcela jistě jela kontrola rychle.

Nástroje: Začni sledovat (0) ?Zašle upozornění na váš email při vložení nového komentáře.

Odpovědi

10.2.2019 21:05 pavele
Rozbalit Rozbalit vše Re: pomalý raid-check
Odpovědět | | Sbalit | Link | Blokovat | Admin
Disky jsou v pořádku - smart?

Co je ve výpisu ve var/log/messages?

SSD disk /TRIM/?

Co říká příkaz:

sysctl -a | grep -i raid

Write-back cache je zapnutá na discích (hdparm -W1 /dev/sd*)?

Třeba v mém případě docházelo ke kontrole mdXX současně na všech discích,aby se zkoušelo pole po poli, bylo potřeba nastavit v /etc/sysconfig/raid-check: MAXCONCURRENT=1

10.2.2019 21:53 lertimir | skóre: 64 | blog: Par_slov
Rozbalit Rozbalit vše Re: pomalý raid-check
Disky jsou v pořádku. Smart testy tam také pravidelně spouštím. jsou to rotační 3TB, 3 z nich jsou HGST jeden je Seagate. v logu je jen
journalctl -b | grep " md:"
Feb 10 01:00:03 gondor.doma kernel: md: data-check of RAID array md126
Feb 10 01:00:09 gondor.doma kernel: md: delaying data-check of md127 until md126 has finished (they share one or more physical units)
(to je důvod proč je druhý check odložen. je to na stejném fyzickém disku). příkaz sysctl dává
sysctl -a | grep -i raid
dev.raid.speed_limit_max = 200000
dev.raid.speed_limit_min = 1000
možná je to příliš široké, ale horní limit to nebrzdí. Write cache zaplá není. zkusím ji zapnout, ale pochybuji, check data jen čte.
10.2.2019 23:24 R
Rozbalit Rozbalit vše Re: pomalý raid-check
A maju disky skutocne aj vykon (hdparm -t --direct /dev/sdb)?
11.2.2019 01:05 lertimir | skóre: 64 | blog: Par_slov
Rozbalit Rozbalit vše Re: pomalý raid-check
výkon mají
hdparm -t --direct /dev/sdb

/dev/sdb:
 Timing O_DIRECT disk reads: 488 MB in  3.00 seconds = 162.51 MB/sec

hdparm -t --direct /dev/sdc

/dev/sdc:
 Timing O_DIRECT disk reads: 486 MB in  3.01 seconds = 161.41 MB/sec

hdparm -t --direct /dev/sdd

/dev/sdd:
 Timing O_DIRECT disk reads: 484 MB in  3.00 seconds = 161.17 MB/sec

 hdparm -t --direct /dev/sde

/dev/sde:
 Timing O_DIRECT disk reads: 550 MB in  3.01 seconds = 182.62 MB/sec
Jendа avatar 11.2.2019 00:25 Jendа | skóre: 78 | blog: Jenda | JO70FB
Rozbalit Rozbalit vše Re: pomalý raid-check
Odpovědět | | Sbalit | Link | Blokovat | Admin
Předpokládám, že se check zpomalil díky nějaké aktualizaci. Jediné na, co jsem přišel je, že v tree zobrazení htop je crond->bash raid-check->sleep 60. Takže to vypadá že skript volá sleep, ale netuším proč.
Tohle podle mě nebude souviset s tím skriptem: ten jenom zapíše "check" do /sys/block/md/md0/resync_action (nebo tak něco). A pak asi každou minutu kontroluje jestli už to doběhlo aby případně mohl poslat mail (což by možná šlo lépe udělat pomocí mdadm --wait, ale třeba kontroluje i něco dalšího).

Je na tom poli provoz? Zkus zvednout ten rychlostní limit min -- je možné, že si to myslí, že je systém pod zátěží a proto to tento check (který by měl běžet na pozadí) škrtí.
11.2.2019 01:08 lertimir | skóre: 64 | blog: Par_slov
Rozbalit Rozbalit vše Re: pomalý raid-check
Ne provoz není. nebo zanedbatelný že si přehrávám audio. Když byl intenzivní provoz (jel backuppc do druhého pole md127) tak se rychlost snížila na cca 2MB/s. Zkusím zvednout.
11.2.2019 01:15 lertimir | skóre: 64 | blog: Par_slov
Rozbalit Rozbalit vše Re: pomalý raid-check
Máš pravdu. zvedl jsem min limit 60 krát na
sysctl -w dev.raid.speed_limit_min=60000
dev.raid.speed_limit_min = 60000
a mám
cat /proc/mdstat
Personalities : [raid10] [raid6] [raid5] [raid4] 
md126 : active raid5 sdc2[1] sde2[4] sdd2[2] sdb2[0]
      7296182592 blocks super 1.2 level 5, 64k chunk, algorithm 2 [4/4] [UUUU]
      [=============>.......]  check = 68.9% (1675738428/2432060864) finish=203.8min speed=61841K/sec
      bitmap: 0/19 pages [0KB], 65536KB chunk

md127 : active raid10 sde1[4] sdd1[2] sdb1[0] sdc1[1]
      995885056 blocks super 1.2 128K chunks 2 far-copies [4/4] [UUUU]
        resync=DELAYED
      bitmap: 0/8 pages [0KB], 65536KB chunk

ted budu muset zjistit, proč to si myslí, že je to pod zátěží, když není.

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.