Portál AbcLinuxu, 12. května 2025 15:26

Dotaz: "Samovolný" pád/restart serveru

13.2.2010 15:23 luk407 | skóre: 6
"Samovolný" pád/restart serveru
Přečteno: 339×
Odpovědět | Admin
Je to asi 4 měsíce co se nám server celkem pravidelně 1 měsíčně restartuje. Jedná se o Dell PowerEdge 2900 s RHEL 5.

V logách (messages, sa, ...) jsem nenašel žádné anomálie, či chybové hlášky, které by s tím mohly souviset. Prostě server pracuje normálně ... a pak jsou až záznamy ze startu serveru.

Memtest proběhl bez chyb.

S čím by to mohlo souviset? Do jakého logu,.... se podívat pro odhalení příčiny?
Nástroje: Začni sledovat (2) ?Zašle upozornění na váš email při vložení nového komentáře.

Odpovědi

13.2.2010 16:00 Filip Jirsák | skóre: 68 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: "Samovolný" pád/restart serveru
Odpovědět | | Sbalit | Link | Blokovat | Admin
Pravidelně jednou měsíčně znamená opravdu pravidelně, nebo v průměru jednou za měsíc (takže třeba dvakrát za týden a pak dva měsíce nic)? Pokud je to opravdu pravidelné, hledal bych souvislost s nějakými pravidelnými akcemi – cron, úklid, zkouška UPS…
14.2.2010 18:13 luk407 | skóre: 6
Rozbalit Rozbalit vše Re: "Samovolný" pád/restart serveru
Ta pravidelnost v praxi znamená: 14.10.09, 10.11.09, 6.1.10, 8.2.10. (pokaždé jiný čas). V prosinci se sám nerestartoval, protože jsme ho 8.12.09 vypínali z důvodu přerušení dodávky el (a tím pádem o měsíc "prodloužili" jeho životnost :-)).

V logu UPSky (apcupsd.events) není žádná indície a hlavně na stejnou UPS je napojen ještě jeden server a ten "jede" nepřetržitě.

16.2.2010 17:45 honza
Rozbalit Rozbalit vše Re: "Samovolný" pád/restart serveru
Jen malá poznámka k pravidelnosti skriptů volných přes cron.

Skripty v adresářích cron.(daily, weekly, monthly) se nevyvolávají v přesně stanovenou dobu. Vyvolávají se tak, že cron spustí kontrolní skript, který ověří, že od posledního dokončení uběhla stanovená doba. Po doběhnutí skriptu cron aktualizuje časovou značku. Takže příští spuštění neproběhne za přesně za 24 hodin, ale za 24 hodin + nějaká doba na na aktualizaci časové značky zaokrouhleno na interval, ve kterém se spouští kontrola adresáře.

To se týká především cron.daily, pro tento případ to asi není relevantní.

14.2.2010 19:45 -
Rozbalit Rozbalit vše Re: "Samovolný" pád/restart serveru
Odpovědět | | Sbalit | Link | Blokovat | Admin
Zdravim, skus sem hodit vypis dmesg
14.2.2010 20:38 luk407 | skóre: 6
Rozbalit Rozbalit vše Re: "Samovolný" pád/restart serveru
Příloha:
Dmesg v priloze ...
14.2.2010 21:48 -
Rozbalit Rozbalit vše Re: "Samovolný" pád/restart serveru
Bezi to xen kerneli. Ak je to host pre DomU, je mozne ze mu pri vyskom zatazeni virtualnych strojov nezostavaju prostriedky na beh Dom0. Skus pozriet limity na Dom0. Podla vypisu to nevyzera na HW problem. Chladenie je v poriadku? Neprehrieva sa? Skus nainstalovat sensors a sleduj ich. Nie je tam HW pole takze mozes sledovat aj teploty hednotlivych diskov cez smartctl (smartmontools). Snad ti to trochu pomoze. Ak to nie je host pre virtualne stroje, nainstaluj kernel bez xen-u.
14.2.2010 22:49 luk407 | skóre: 6
Rozbalit Rozbalit vše Re: "Samovolný" pád/restart serveru
Žádný virtuální stroj tam neběží (původní záměr sice byla instalace virtuálního stroje (proto ten XEN), ale pak z toho sešlo).

Zkusím monitorovat teploty pomocí smartmontools a dát kernel bez XENu (s Xenem to ale pravděpodobně souviset nebude, neboť to předtím (s XEN jádrem) minimálně rok běželo bez problémů). Díky.
15.2.2010 11:22 -
Rozbalit Rozbalit vše Re: "Samovolný" pád/restart serveru
a este strela od boku: dell supportuje RHEL a CENTOS je jeho klon, ktory je kompilovany presne podla RHEL a je odtial vyhodeny len soft, ktory je vlastnictvom RH. Skus kontaktovat DELL support. Ak je zelezo v zaruke, bude to lahsie.
16.2.2010 18:28 Dan Horák | skóre: 21
Rozbalit Rozbalit vše Re: "Samovolný" pád/restart serveru
Odpovědět | | Sbalit | Link | Blokovat | Admin
Píšete, že máte RHEL5, takže bez obav kontaktujte Red Hat Support, respektive svého dodavatele předplatného. Také můžete použít Red Hat Knowledge Base a RHEL samozřejmě poskytuje prostředky, jak získat informace z havarovaného kernelu (kdump, xendump).

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.