co monitorovat na linuxu (vyřešeno)

Já bych spíše poradil, co nemonitorovat. Dostanu se k tomu.

Monitorovat by se mělo především to, co ten server má dělat. Pokud je to webserver, tak by se mělo monitorovat to, zda odpovídá dostatečně rychle a zda je obsah určité stránky správný (tj třeba si tam vložit nějakou značku a kontrolovat její přítomnost). Některé projekty mají přímo speciální stránku pro health check.

Podobně u všech ostatních služeb, kontrolovat to, co mají skutečně dělat. IMAP server může odpovídat na portu, ale může tam být nějaký interní problém, takže třeba monitorovat i dosažitelnost nějaké zprávy.

Ale rozhodně nemonitorujte souhrnné parametry typu load. To vám vůbec nic neřekne. Stejně jako zombie procesy (už někomu přišel warning na zombie?). Setkávám se s tím, že admini považují tyto veličiny za důležité a to především z toho důvodu, že každý tool pro monitorování je monitoruje by default. Jenže tyto veličiny tam jsou zejména proto, by ten výchozí template nebyl prázdný a aby se adminovi ukázaly nějaké grafy hned po nainstalování.

Takže load ne, zombie ne, swap si vypněte, ať jej nemusíte zbytečně monitorovat. FS je určitě dobré monitorovat, místo i inode. Dostupnost po síti a potom jednotlivé služby.

U těch služeb kontrolujte to, co jste schopen ovlivnit. Setkal jsem se s tím, že nějaký agent zjistil, že na stroji je DB a tak vesele monitorovat asi 60 interních hodnot. Admin jednak ani nevěděl, co ty hodnoty znamenají a řešil situace, které se řešit nemusejí jen na základě toho, že přišel warning. Takže monitorovat to, co jste schopen ovlivnit. Nedostatek místa na disku je jasná situace. Load vyšší než nějaké magické číslo není jasná situace.

Ještě je taky dobré si ujasnit, na co ten monitoring potřebujete. Já se na to dívám z pohledu admina a mě zajímá, zda webserver servíruje stránky dostatečně rychle. Proto nepotřebuju sledovat zátěž jednotlivých cpu. Pokud to někdo chce z důvodu optimalizace aplikace, tak je to úplně něco jiného. Tam budou jiné metriky podle toho, čeho chce dosáhnout. Někde jsem zaslechl krásný citát: optimalizuj pouze to, co jsi schopen změřit.

Heron

5.9.2019 08:45 Max | skóre: 73 | blog: Max_Devaine
Rozbalit Rozbalit vše Re: co monitorovat na linuxu

Ano, zombie mi občas přijde, právě proto, že server je dost vytížen. Load monitoruji také. Vím, jaký je běžný provoz a vím, co není už ok a podle toho si load nastavím. Většinou v Linuxu monitoruji Load a ve Win CPU a oboje mi už pomohlo (přišel mi warning dřív, než se to začalo bít tak, že by se už začali ozývat i uživatelé). Load je podle mně dobrý ukazatel toho, kdy začne mít VM problém se zdroji, ale aplikace třeba ještě odpovídají dobře.
Zdar Max

Měl jsem sen ... :(

5.9.2019 08:48 Max | skóre: 73 | blog: Max_Devaine
Rozbalit Rozbalit vše Re: co monitorovat na linuxu

Jinak dodám, že počet procesů je na tom podobně jako load. Znám běžný stav, takže když počet procesů stoupne nad běžný stav, vím, že se něco děje. Setkal jsem se několikrát s tím, že nastala chyba sw, začala množit procesy (=neukončovala staré) a já se o tom díky tomuto dozvěděl ještě předtím, než by se začalo dít něco horšího.
Zdar Max

Měl jsem sen ... :(

5.9.2019 08:59 Heron | skóre: 53 | blog: root_at_heron | Olomouc
Rozbalit Rozbalit vše Re: co monitorovat na linuxu

V tom případě je dobré monitorovat ty primární zdroje a nikoliv délku nějaké fronty přepočítané nějakým vzorcem a vyhlazené časem. Nedávno jsem viděl hezkou přednášku, mluví o tom od času 38:32.

K tomu dalšímu se mi snad ani nechce vyjadřovat. Pokud je ten server tak vytížen, tak by si zasloužil rozdělení na více strojů apod (podle toho, co to vlastně je). Stav, kdy sleduju nějaký ukazatel (protože si pamatuju, jaké jsou běžné a patologické hodnoty) na divném stroji a potom něco udělám, není podle mě dobrý. Stejně jako to, že tam musíš spouštět nějaké služby ručně.

Heron

5.9.2019 10:09 Josef Kufner | skóre: 70
Rozbalit Rozbalit vše Re: co monitorovat na linuxu

Stav, kdy sleduju nějaký ukazatel (protože si pamatuju, jaké jsou běžné a patologické hodnoty) na divném stroji a potom něco udělám, není podle mě dobrý.

Pokud to je jediný ukazatel, který sleduju, tak to určitě dobré není. Pokud to je jako doplněk ke sledování toho podstatného, tak je celkem vysoká šance, že to upozorní na problémy, které explicitně nesleduji. Samozřejmě to neřekne, co přesně se děje, ale řekne to, že něco není úplně v pořádku a že bych se měl podívat důkladněji. Také už jsem se párkrát setkal s tím, kdy nějaké nepodstatné sledované ukazatele pomohly s lokalizací nejasných problémů a úzkých hrdel.

Osobně doporučuji mít dvě skupiny ukazatelů. Ty podstatné, které hlídají poskytované služby (odezvy démonů, health check) a celkový stav serveru (obsazená paměť, místo na disku, load). A pak ty nepodstatné, které se občas hodí a je levné je sbírat (IO operace, teploty, …).

Hello world ! Segmentation fault (core dumped)

5.9.2019 12:15 Max | skóre: 73 | blog: Max_Devaine
Rozbalit Rozbalit vše Re: co monitorovat na linuxu

Kdyby to byly služby, tak je to ok, ale jsou to jen win aplikace, které nedokážou běžet jako služby.
Ale to je přeci jasné, že musím vědět, jaké hodnoty jsou běžné a jaké patologické. Kdybych sledoval jen služby (jejich odezvy apod.), tak nepoznám, že se nějaký problém pomalu blíží a až se začnou zpomalovat odezvy monitorované aplikace, tak se dá říci, že už je pozdě. A pro mně je load v linuchu dobrým ukazatelem. Kdybych nesledoval load, sledoval bych samotné CPU, u kterého bych také musel vědět, jaké zatížení je běžné a jaké už ne.
Možná se ale bavíme v jiných rovinách. Já třeba musím monitorovat i věci, u kterých je běžné, že jsou v náhodných dobách off (a je to ok), chci vědět, kdy docházelo k malým výpadkům, ale chci být informován jen o těch větších atd.
Ty jsi třeba naproti tomu zvyklý provozovat HA věci, honit ms a tahat info o službách pomalu kontinuálně (jako např. netdata) a tak na to máme rozdílný pohled.
Zdar Max

Měl jsem sen ... :(

5.9.2019 13:18 Heron | skóre: 53 | blog: root_at_heron | Olomouc
Rozbalit Rozbalit vše Re: co monitorovat na linuxu

Kdyby to byly služby, tak je to ok, ale jsou to jen win aplikace, které nedokážou běžet jako služby.

No comment :-D

Ale asi každý máme svoje peklo, které si udržujeme.

Ale to je přeci jasné, že musím vědět, jaké hodnoty jsou běžné a jaké patologické. Kdybych sledoval jen služby (jejich odezvy apod.), tak nepoznám, že se nějaký problém pomalu blíží a až se začnou zpomalovat odezvy monitorované aplikace, tak se dá říci, že už je pozdě.

Znalost systému a potřeb běžících služeb je klíčová, o tom nediskutuju. O tom, že člověk po určité době (obzvláště, když ten systém sám stavěl) pozná, že je něco špatně i z reakce terminálu po přihlášení se na ssh, taky nediskutuju. Takto jsem detekoval několik problémů ale po jejich odhalení je nutné monitorovat přímo ty zdroje, co to způsobily. A nespoléhat se na příznaky.

Možná se ale bavíme v jiných rovinách. Já třeba musím monitorovat i věci, u kterých je běžné, že jsou v náhodných dobách off (a je to ok), chci vědět, kdy docházelo k malým výpadkům, ale chci být informován jen o těch větších atd.

No spíš máme jiný přístup k věci. Já bych nebyl ochoten dělat polovinu věcí, o kterých ty píšeš a pokud už bych je dělal (což se občas stane), tak o tom určitě nebudu psát. Já si chci spravované služby vybírat a vybírám si ty, které jsou dostatečně příčetné.

Heron

5.9.2019 13:28 Max | skóre: 73 | blog: Max_Devaine
Rozbalit Rozbalit vše Re: co monitorovat na linuxu

Tak já samozřejmě monitoruji, co je důležité, tedy i ty zdroje

Já si chci spravované služby vybírat a vybírám si ty, které jsou dostatečně příčetné.

V tom je ten rozdíl. Já si vybírat nemohu, resp. jen omezeně.
Zdar Max

Měl jsem sen ... :(

5.9.2019 19:26 j
Rozbalit Rozbalit vše Re: co monitorovat na linuxu

Jenze velice casto nic jinyho nez ty priznaky nemas. Jak uz napsal MAX, primarne ti stroj muze v klidu odpovidat "dle ocekavani", vse funguje, ale ... trebas roste prave load, obsazenost ram, IO, atd atd. A protoze kdyz ten stroj nakou dobu bezi, tak vis jakej je normal, muzes sledovat nenormalni odchylky. Coz je presne ten indikator toho, ze se neco nenormalniho deje.

A kdyz zacnes nasledne zjistovat co, tak mas prevazne jeste nejakej ten cas, nez se to slozi uplne. Jasne, trebas zjistis, ze si reditel jen zrovna pustil nejaky to 8k porno, a proto mas 100x vyssi traffic nez je normal. Ale trebas taky zjistis, ze ti nekdo nebo neco luxuje obsah disku.

Prave hodnoty tehle "nezajimavych" velicin dost casto predikujou, ze jde neco do kopru. Jo, taky tu mam stroj, kde je load setrvale 20, i kdyz nedela vubec nic ... eto savetskaja technika ... (tahle do sdelali soudruzi v US).

5.9.2019 20:38 Heron | skóre: 53 | blog: root_at_heron | Olomouc
Rozbalit Rozbalit vše Re: co monitorovat na linuxu

trebas roste prave load, obsazenost ram, IO,

Pozor, já jsem explicitně uvedl právě ten load a důvody jsem napsal. Schválně si pusť odkazovanou přednášku, tam je to vysvětleno ještě z jiného úhlu pohledu. (Je teda fakt, že on pro přesné řízení zdrojů a pro PID opravdu potřebuje mít čistou veličinu, protože jakákoliv přepočtová funkce mu z toho PID udělá něco zcela jiného.)

Obsazenost ram a io zátěž jsou jistě správné veličiny k monitorování.

K tomu loadu, s absurdně vysokými hodnotami loadu (stovky) se setkávám, pokud procesy čekají na IO. Jsou ve stavu D, čekají třeba na již neexistující NFS server a nic nedělají. Load stoupá (protože load je zprůměrovaná délka fronty čekajících procesů), počet procesů stoupá, ale jinak se nic neděje.

Zajímavé je, že většina monitovacích software má / měla default check pro zombie (já jsem fakt za 15 let praxe neviděl, že by kernel nestíhat zabíjet zombíky) ale nikde jsem se nesetkal s checkem pro D (uninterruptible sleep).

Takže správný postup je monitorovat ten NFS mount, druhá správná možnost je monitorovat procesy ve všech patologických stavech (monitoruje se pouze Z). Ne, místo toho se měří load.

Heron

5.9.2019 20:47 Heron | skóre: 53 | blog: root_at_heron | Olomouc
Rozbalit Rozbalit vše Re: co monitorovat na linuxu

Ještě mě napadla další věc. Spousta lidí si myslí, že monitorováním loadu si ušetří práci. Prostě když je load vysoký, tak se něco děje a začne se vyšetřovat. To je jako mít jednu červenou kontrolku, která se rozsvítí, když je něco špatně. Sice špatně může být asi tisíc věcí, ale vy máte jen jedno červené světlo.

To ale žádný čas neušetří, protože potom musíte vyšetřovat co se kde stalo. Když jsou testy na každém rohu, tak přesně víte, které selhaly. Ještě nevíte proč, ale víte přesně které.

Heron

5.9.2019 21:43 Max | skóre: 73 | blog: Max_Devaine
Rozbalit Rozbalit vše Re: co monitorovat na linuxu

Stejně tak jako tak jdu na server a podívám se, co se děje. Sice mohu monitorovat 20x víc věcí, ale stejně se na ten server nakonec podívám.
Další věcí je udržitelnost. Pokud člověk nepoužívá nějaké automatizační nástroje na monitoring (nějaký agent, co ti začne na serveru měřit vše, co najde a udělá ti v tom pěkný bordel), které osobně moc nemusím, tak při jakékoli změně musím dbát změny i na monitoring serveru. Čím míň věcí monitoruji, tím menší údržbu na monitoringu musím dělat.
Chápu, že tobě se load nelíbí, ok, mně naopak pro mé potřeby vyhovuje a plně dostačuje a nestydím se za to.
Zdar Max

Měl jsem sen ... :(

6.9.2019 13:28 Heron | skóre: 53 | blog: root_at_heron | Olomouc
Rozbalit Rozbalit vše Re: co monitorovat na linuxu

Chjo, tohle není nic na úrovni stydět se. Pokud ti to tak vyhovuje, tak si to tak dělej. Já jsem chtěl jen poradit.

tak při jakékoli změně musím dbát změny i na monitoring serveru

No to by mělo být součástí práce. Stejně jako dokumentace. Práce není hotová, dokud nejsou testy a není to zdokumentováno. (Opět je to moje vidění, které nikomu necpu.)

tobě se load nelíbí

To není o líbí / nelíbí. Taky jsem se v minulosti spálil monitorováním nesprávných metrik (které byly sledované nikoliv proto, že to daná situace vyžadovala, ale proto, "že se to tak dělá").

Heron

6.9.2019 11:19 Josef Kufner | skóre: 70
Rozbalit Rozbalit vše Re: co monitorovat na linuxu

Ty bereš load jako něco všemocného, co nahradí všechny další metriky, ale ono to je jen souhrnný ukazatel. Ta jedna červená kontrolka se hodí, abych věděl, že se něco děje. Neřekne mi co přesně se děje, ale řekne mi, ať se na to kouknu. Pak přijdou na řadu ty další ukazatele.

Hello world ! Segmentation fault (core dumped)

6.9.2019 13:20 Heron | skóre: 53 | blog: root_at_heron | Olomouc
Rozbalit Rozbalit vše Re: co monitorovat na linuxu

Ty bereš load jako něco všemocného

Seš si jistej, že reaguješ na správný komentář? Od počátku píšu load nebrat a ty mě na to napíšeš, že to beru jako něco všemocného :-D

Heron

6.9.2019 13:29 Josef Kufner | skóre: 70
Rozbalit Rozbalit vše Re: co monitorovat na linuxu

Jo, ale to slovo asi nebylo úplně to správné … „příliš obecný a všezahrnující, než aby byl užitečný“? Prostě, přijde mi, že load zatracuješ, protože máš od něj přehnaná očekávání, která samozřejmě nenaplní, neboť je to jen souhrnný a nekonkrétní indikátor.

Hello world ! Segmentation fault (core dumped)

6.9.2019 13:45 Heron | skóre: 53 | blog: root_at_heron | Olomouc
Rozbalit Rozbalit vše Re: co monitorovat na linuxu

Prostě, přijde mi, že load zatracuješ, protože máš od něj přehnaná očekávání

Ne, já vím přesně, co je load. Časem zprůměrovaná délka fronty procesů s nějakým exponenciálním úbytkem. Nic víc od něj neočekávám. A toto stanovisko je u mě roky stejné.

A ty roky potkávám právě lidi, kteří load považují za bůh ví co. Když jsem nedávno dělal graf renderingu v 80 threadech, měl jsem load 80. Když se mi někde sekne NFS, je load klidně 500. Jen protože procesy čekají ve frontě. V prvním případě jsou to cpu bound procesy, ale vše ostatní funguje (když se tomu rendereru dá nízká priorita) v nezměněném tempu. U těch procesů zaseknutých v D je už potom vliv zcela nulový (ok, dobře, žerou paměť). Tj load 30 znamená jen tolik, že průměrně za 1 / 5 / 15 minut bylo ve stavu runnable 30 procesů. No to jsem se toho dozvěděl. Navíc ta hodnota není nezávislá. Load 30 na 4jádru může přestavovat problém, load 30 na 64jádru je flákárna.

Heron

6.9.2019 11:48 chtel_bych_se_zeptat
Rozbalit Rozbalit vše Re: co monitorovat na linuxu

K tem zombikum... Ja jsem taky myslel ze se o ne kernel postara, ale tady nejak ne.

[root@server ~]# top | grep zombie
Tasks: 168 total,   1 running, 163 sleeping,   0 stopped,   4 zombie


[root@server ~]# ps aux | awk '$8~/Z/ {print}'
pentaho  22169  0.0  0.0      0     0 ?        Z    Jul24   0:00 [sh] defunct
pentaho  24656  0.0  0.0      0     0 ?        Z    Jul27   0:00 [sh] defunct
pentaho  29982  0.0  0.0      0     0 ?        Z    Jul27   0:00 [sh] defunct
pentaho  30895  0.0  0.0      0     0 ?        Z    Jul27   0:00 [sh] defunct

6.9.2019 11:55 Josef Kufner | skóre: 70
Rozbalit Rozbalit vše Re: co monitorovat na linuxu

Jen technický detail: O zombíky se nestará kernel, ale init. Pokud rodičovský proces ještě žije a zombíky nesbírá, tak tam zombíkují a init je posbírá, až když rodičovský proces skončí (a init se automaticky stane jejich rodičem). Celá pointa zombíků je v tom, že rodičovský proces si musí vyzvednout návratový kód procesu (ten int, který vrací main()). Po ukončení procesu se uvolní všechny zdroje, které měl proces alokované a zůstane jen zombík, tedy záznam v tabulce procesů, který obsahuje ten návratový kód.

Hello world ! Segmentation fault (core dumped)

Chtel vych se zeptat blize na io. Kterou metriku by jste osobne sledovali.

Byla by to io-wait z topu? (Jestli tomu dobre rozumim, tak kdyz tohle roste, tak se jedna o saturaci, takze i hodna 15% je v tomto pripade spatne.)

Nebo %util z iotop? (Kde se jedna o vytizeni a 80% muze byt klidne v pohode.)

Vety v zavorkach jsou spise moje domenky, jak chapu tyto hodnoty ja. Jestli se pletu, rad se necham poucit.

Predem moc diky

6.9.2019 12:16 NN
Rozbalit Rozbalit vše Re: co monitorovat na linuxu

Pokud to neni tajne, muzeme se konecne dozvedet co to bude cele zac? Co je to za server a k cemu bude slouzit?

6.9.2019 13:31 chtel_bych_se_zeptat
Rozbalit Rozbalit vše Re: co monitorovat na linuxu

Neni to tajne. Prevazne webove a databazove servery. Nasadil jsem NRPE, ale zjistil jsem, ze skripty v balicku nagios-plugins jsou pomerne zastarale. Pisi si ted sve vlastni. Je to dobry trening a clovek se neco priuci. Aktualne to delam tak jak tady bylo nekolikrat zmineno - nasadim obecne checky na vsechny servery a pak zvlast checky podle toho o jaky server se jedna. Nechci sbirat tech metrik moc.

6.9.2019 15:13 KOLEGA | skóre: 17 | blog: odpocinuti_vecne
Rozbalit Rozbalit vše Re: co monitorovat na linuxu

Nic si nepis a sahni po Icinga. Taky jsme to v praci resili a jsme moc spokojeni. Nagios veci si preneses a zbytek pozbiras, komunita je mimoradne vstricna.

Metrik tolik nesbirame, jenom bezne lifecycle ukazatale a pak nejake hardware veci pres SNMP. Takze jak pises se mi to zda moudre.

8.9.2019 08:56 chtel_bych_se_zeptat
Rozbalit Rozbalit vše Re: co monitorovat na linuxu

Dobre, ale neco Vam musi data do Icingy posilat. Pouzivate nejakeho agenta? Jinak odpoved "nic si nepis" neni zrovna to co potrebuji :) ja v tom opravdu vidim dobry trenink. :)

8.9.2019 17:28 alkoholik | skóre: 40 | blog: Alkoholik
Rozbalit Rozbalit vše Re: co monitorovat na linuxu

Zrovna SNMP na vetsinu veci bohate staci.

8.9.2019 19:00 Max | skóre: 73 | blog: Max_Devaine
Rozbalit Rozbalit vše Re: co monitorovat na linuxu

Já používám zásadně nrpe (jak na linuxu, tak na win). Nevím, jak nyní, ale dřív se snmp chovalo rozdílně i v rámci distribucí. Nrpe naproti tomu se všude chová stejně (+ samozřejmě mnohem lepší možnosti kontrol).
Zdar Max

Měl jsem sen ... :(

9.9.2019 10:26 chtel_bych_se_zeptat
Rozbalit Rozbalit vše Re: co monitorovat na linuxu

A jak resis scripty, ktere NRPE spousti?

9.9.2019 10:53 Max | skóre: 73 | blog: Max_Devaine
Rozbalit Rozbalit vše Re: co monitorovat na linuxu

Jak to myslíš? Jako nebezpečí děravosti nrpe povoleného s argumentama? Nebo myslíš distribuci skriptů na jednotlivé servery?
Zdar Max

Měl jsem sen ... :(

9.9.2019 13:17 chtel_bych_se_zeptat
Rozbalit Rozbalit vše Re: co monitorovat na linuxu

No prosel jsem nekolik navodu na instalaci NRPE a skoro vsude je uvedeno "nainstaluj balik nagios-plugins (nagios-plugins-basic)". Tohle dotahne skripty/binarkt, ktere pak NRPE spousti jako jednotlive checky. Ale me vadi ze to je takova smeska, casto s obosolete kodem.

Takze jak delas ty checky. Pouzivas pro to balik nagios-plugins a nebo mas jiny zdroj?

Predem diky

9.9.2019 13:30 Max | skóre: 73 | blog: Max_Devaine
Rozbalit Rozbalit vše Re: co monitorovat na linuxu

Používám standardní balík "nagios-plugins" + mám vlastní plugin na paměť + většinu ostatních kontrol pak dělám z dálky.
Bezpečnost řeším tak, že :

povolená komunikace jen pro centreon server
na firewallu povoleno navázat spojení jen pro centreon server
nyní mám ještě nasazen flowmon na odhalení podezřelé komunikace na síti (ADS)

Zdar Max

Měl jsem sen ... :(

Dotaz: co monitorovat na linuxu

Odpovědi