Portál AbcLinuxu, 8. května 2025 18:30
Zdravím.
Mám doma taký malý linuxoví server ktorý slúži ako router a tiež tam behá pár nenáročných vecí. Kedysi (ešte zhruba pred jadrom 2.6.18) mi tam behali aj náročnejšie veci ktoré vyťažovali procesor na 100% ale neskôr po určitom updatu jadra som ich musel vypnúť pretože systém začal pri vyťažení mrznút. Pri záťaži to mrzne nepravidelne, raz to dokáže bežať hodinu inokedy jeden den. Myslel som že to mrznutie sa prejavuje iba pri max vyťažení procesora ale po čase som zistil že to mrzne aj bez vyťažení akorát že to trvá dlhší čas, povečšinou od 15 dní do cca 50 dní uptime. V logoch neni nic videt, len že sa sekol a prestal úplne zapisovať.
Hardwarom by to byť nemalo, memtest prešiel, disk je dobrý, cpu sa neprehrieva. Aby som úplne vyrišiel otázku chybného hardwaru, vymenil som celu platformu(CPU,RAM,MB) za inu tiež PIII (i810 Chipset a Celeron 700MHz- Coppermine) a problém zotrval. Videl by som to na 90% na chybu v jadre ale je mi divné že sa mi ťažko na nete hladá niekoho kto má rovnaký problém. Našiel som akorát http://www.gossamer-threads.com/lists/linux/kernel/1111936 ale on ma dvoj procesorovú zostavu.
Hardware je
Před rokem jsem instaloval Gentoo na Pentium II (6,6,0 Celeron Mendocino) s čipsetem 440LX/EX a po marných pokus přeložit glibc s optimalizacemi pro pentium2 (překladač vyráběl rozbité pomocné binárky) jsem musel celý sytém přeložit pro pentium-mmx. Jádro ale mám přeložené pro daný procesor a systém je stabilní.
Vy máte Debian, ten je přeložený pro i486 kromě několika knihoven (glibc). Zkoušel jste použít jádro nebo glibc nižší stroj? Chi říci, jestli si jste jistý, že chyba je v jádře, jestli nemáte jen špatnou glibc nebo překladač?
Rovněž mám zkušenosti, že jádro přeložené na Gentoo pro Pentium I mi nenabootuje. Stejně nakonfigurované jádro přeložené na Debianu nebo Fedoře funguje. A tato chyba se projevu přesně od 2.6.13rc1.
Používam i686 ale mal som aj i486 jádro a chovalo sa to rovnako. Pýtate sa či som použil niečo nižšie, ak to správne chápem tak máte namysli i386 - nie to som zatial neskúšal. Inak ta chyba o ktorej vravíte presne môže byť od toho jadra 2.6.13. Keď viac zalistujem v pameti tak sa mi marí že sa to začalo prejavovat ešte skôr než bolo jadro 2.6.18. Nemáte o tej chybe nejaké podrobnejšie info? Link? Každopádne to vidím tak že si zkompilujem vlastné jadro a uvidím čo to spraví. A glibc prečo by mala byť špatná, neviem čo myslíte konkrétne, je tam verzia z debian testing repozitara.
Používam i686 ale mal som aj i486 jádro a chovalo sa to rovnako. Pýtate sa či som použil niečo nižšie, ak to správne chápem tak máte namysli i386 - nie to som zatial neskúšal.
i386 netřeba. Chtěl jsem jen vědět, jestli jste zkoušel i586, když stroj máte i686.
Nemáte o tej chybe nejaké podrobnejšie info?
Ani ne. Nikdo kromě mě ji neviděl. Hnije v systému evidence chyb Gentoo i Linuxu. Akorát radili bisectingem najít, který konkrétní patch to dělá, což je obecně rozumný přístup, jenže to je produkční mašina a já si nemůžu dovolit na ní něco zkoušet. A jiný podobný stroj nemám.
A glibc prečo by mala byť špatná
Protože může být chyba v ní nebo v překladači. A zkusit ji přeloženou pro jinou architekturu může pomoci. V Debianu je většina balíčků přeložených pro i486, ale zrovna glibc mají přeloženou pro různé procesory a standardně tam je lepší verze než pro i486. A zrovna překlad glibc hned vedle Linuxu je dost citlivý na kvalitu překladače.
mám tam libc6 je 2.9.1 i686.
No ale pokial by bola chyba v týchto distribučných balíkoch(linux-image a libc) tak to by asi robilo všetkým luďom ktorý maju P3 a debiana. A je práve zvláštne, že na nete nemôžem nič najsť.
Vyměnil jste celé železo. A jiný zdroj jste zkusil?
Ano
Grafárna je integrovaná a vlastne ju nepoužívam, disk som tiež nevimenil ale v tom problém nebude. Síťovky su tam všetky RTL8139 a nedokážem si predstaviť že by bol problem v nich. Naviac ako som písal ta mašina chodila zo začiatku úplne normálne a bez toho že by som niečo menil sa to začalo takto chovať
Stárnutí a postupný růst nespolehlivosti HW jsou celkem běžné. Např. duálnímu serveru HP Netserver po 7 letech odešel druhý procesor (PII) - deska nebo CPU. S jedním CPU to vzhledem ke spotřebě nemělo smysl provozovat.
Kromě opotřebení a následného průrazu NP přechodu je klasickou věkovou vadou nafouknutý kondenzátor (zničené dielektrikum). Ono stačí, aby se zbláznila síťovka, to zneprůchodní PCI sběrnici a systém padne na kolena.
Jestli lze, tak na problémový stroj připojte jiný stroj přes sériový port a systémovou konzoli udělejte z něho. Pokud vám jádro panikaří, tak tohle je poslední způsob, jak hlášku chytit.
Mel jsem s ALi take zasadni problemy. Do desky s ALi stacilo dat dve sitove karty (at uz 3Com nebo Intel) a pustit nejake vetsi scp kopirovani a do ctvrt hodiny se to zakouslo. Plati pro 2 desky s cipsetem ALi pro PII a jednu s cipsetem ALi pro PI MMX.
Ano mam 3 sietovky so zhodou okolností ale tím to myslím nebude lebo sa to začalo prejavovať ešte keď som mal sieťovky dve a ako som už napísal - vymenil som HW a doska bola i810 čo bola kedysi vyhlasená kvalita pokial dobre pamätám
Muzete mit proste vadny kus. Zrovna jeden takovy se mi tady vali. PIII Coppermine, intelacky cipset a presto jednou za nejaky cas vytuhne at uz pod linuxem nebo pod windows. Pritom to neni uplny smejd - Dell. Memtest bezi tyden v kuse bez problemu.
Mam v prevadzke 2 stroje - jeden je Dual CPU P-III/733 MHz, doska ASUS, chipset VIA. Momentalne Jadro 2.6.18, slape bez problemov, uptime ma skoro rok. Bezi tam LAMP a radio streaming.
Druhy stroj je Celeron 800 MHz, cipset Intel 440BX, 5 sietovych kariet (4 PCI, 1 ISA), stroj slape na jadre 2.6.18, takisto absolutne bez problemov.
Skusil ste vymenit sietovku ? Neobjavuje sa v kernel logu nieco podozrive ?
Jediné podozrivé riadky v logu mi pripadajú byť tieto, zapíšu sa pri boote
Oct 4 17:36:46 debian kernel: [ 2.634257] 8139cp: 10/100 PCI Ethernet driver v1.3 (Mar 22, 2004)
Oct 4 17:36:46 debian kernel: [ 2.634435] 8139cp 0000:00:10.0: This (id 10ec:8139 rev 10) is not an 8139C+ compatible chip, use 8139too
Oct 4 17:36:46 debian kernel: [ 2.634605] 8139cp 0000:00:13.0: This (id 10ec:8139 rev 10) is not an 8139C+ compatible chip, use 8139too
Oct 4 17:36:46 debian kernel: [ 2.634764] 8139cp 0000:00:14.0: This (id 10ec:8139 rev 10) is not an 8139C+ compatible chip, use 8139too
Oct 4 17:36:46 debian kernel: [ 2.654027] 8139too Fast Ethernet driver 0.9.28
k hardware - pouzivam celeron - ALi chipset viz nize slackware 11.0 (posledni verze s jadrem 2.4 - aktualizoval jsem ho) a je schopen i ve svem veku jet nekolik mesicu bez restartu. Pravdou je, ze zatez je temer nulova, zalozni server pro DHCP, BIND-slave, NTP a mozna par nejakych sluzeb.
pred casem jsem zkousel desku s i810, ale ta uz temer umrelaresp. zacala byt nestabilni - samovolne restarty apod. tenhle stroj se zatim nedal zlomit
root@server2:/# dmesg
Linux version 2.4.37.6 (root@server2) (gcc version 3.4.6) #1 Thu Oct 1 05:06:56 CEST 2009
BIOS-provided physical RAM map:
BIOS-e820: 0000000000000000 - 000000000009fc00 (usable)
BIOS-e820: 000000000009fc00 - 00000000000a0000 (reserved)
BIOS-e820: 00000000000f0000 - 0000000000100000 (reserved)
BIOS-e820: 0000000000100000 - 0000000006000000 (usable)
BIOS-e820: 00000000fffe0000 - 0000000100000000 (reserved)
96MB LOWMEM available.
On node 0 totalpages: 24576
zone(0): 4096 pages.
zone(1): 20480 pages.
zone(2): 0 pages.
Kernel command line: BOOT_IMAGE=Linux-m2.4.36 ro root=301
Initializing CPU#0
Detected 367.512 MHz processor.
Console: colour VGA+ 80x25
Calibrating delay loop... 734.00 BogoMIPS
Memory: 94632k/98304k available (1461k kernel code, 3284k reserved, 252k data, 264k init, 0k highmem)
Dentry cache hash table entries: 16384 (order: 5, 131072 bytes)
Inode cache hash table entries: 8192 (order: 4, 65536 bytes)
Mount cache hash table entries: 512 (order: 0, 4096 bytes)
Buffer cache hash table entries: 4096 (order: 2, 16384 bytes)
Page-cache hash table entries: 32768 (order: 5, 131072 bytes)
CPU: L1 I cache: 16K, L1 D cache: 16K
CPU: L2 cache: 128K
CPU: After generic, caps: 0183f9ff 00000000 00000000 00000000
CPU: Common caps: 0183f9ff 00000000 00000000 00000000
CPU: Intel Celeron (Mendocino) stepping 05
Enabling fast FPU save and restore... done.
Checking 'hlt' instruction... OK.
POSIX conformance testing by UNIFIX
mtrr: v1.40 (20010327) Richard Gooch (rgooch@atnf.csiro.au)
mtrr: detected mtrr type: Intel
PCI: PCI BIOS revision 2.10 entry at 0xfd9e8, last bus=1
PCI: Using configuration type 1
PCI: Probing PCI hardware
PCI: Probing PCI hardware (bus 00)
PCI: Using IRQ router ALI [10b9/1533] at 00:07.0
PCI: Hardcoded IRQ 14 for device 00:0f.0
Linux NET4.0 for Linux 2.4
Based upon Swansea University Computer Society NET3.039
Initializing RT netlink socket
apm: BIOS not found.
Starting kswapd
Journalled Block Device driver loaded
udf: registering filesystem
pty: 512 Unix98 ptys configured
Serial driver version 5.05c (2001-07-08) with MANY_PORTS SHARE_IRQ SERIAL_PCI enabled
ttyS00 at 0x03f8 (irq = 4) is a 16550A
Real Time Clock Driver v1.10f
Floppy drive(s): fd0 is 1.44M
FDC 0 is a post-1991 82077
loop: loaded (max 8 devices)
8139cp: 10/100 PCI Ethernet driver v1.2 (Mar 22, 2004)
8139cp: pci dev 00:12.0 (id 10ec:8139 rev 10) is not an 8139C+ compatible chip
8139cp: Try the "8139too" driver instead.
8139cp: pci dev 00:0e.0 (id 10ec:8139 rev 10) is not an 8139C+ compatible chip
8139cp: Try the "8139too" driver instead.
8139too Fast Ethernet driver 0.9.26
PCI: Found IRQ 9 for device 00:12.0
eth0: RealTek RTL8139 at 0xc680df00, 00:00:1c:df:21:da, IRQ 9
eth0: Identified 8139 chip type 'RTL-8139C'
PCI: Found IRQ 10 for device 00:0e.0
eth1: RealTek RTL8139 at 0xc680fe00, 00:05:1c:01:b8:d3, IRQ 10
eth1: Identified 8139 chip type 'RTL-8139C'
Uniform Multi-Platform E-IDE driver Revision: 7.00beta4-2.4
ide: Assuming 33MHz system bus speed for PIO modes; override with idebus=xx
ALI15X3: IDE controller at PCI slot 00:0f.0
PCI: Hardcoded IRQ 14 for device 00:0f.0
ALI15X3: chipset revision 193
ALI15X3: not 100% native mode: will probe irqs later
ide0: BM-DMA at 0xffa0-0xffa7, BIOS settings: hda:pio, hdb:pio
ide1: BM-DMA at 0xffa8-0xffaf, BIOS settings: hdc:pio, hdd:pio
hda: QUANTUM FIREBALL CX6.4A, ATA DISK drive
ide: Assuming 33MHz system bus speed for PIO modes; override with idebus=xx
hdc: ATAPI 48X CDROM, ATAPI CD/DVD-ROM drive
ide0 at 0x1f0-0x1f7,0x3f6 on irq 14
ide1 at 0x170-0x177,0x376 on irq 15
hda: attached ide-disk driver.
hda: host protected area => 1
hda: 12594960 sectors (6449 MB) w/418KiB Cache, CHS=784/255/63, UDMA(33)
hdc: attached ide-cdrom driver.
hdc: ATAPI 48X CD-ROM drive, 128kB Cache, (U)DMA
Uniform CD-ROM driver Revision: 3.12
Partition check:
hda: hda1 hda2 hda3 hda4
Initializing Cryptographic API
NET4: Linux TCP/IP 1.0 for NET4.0
IP Protocols: ICMP, UDP, TCP, IGMP
IP: routing cache hash table of 512 buckets, 4Kbytes
TCP: Hash tables configured (established 8192 bind 16384)
Linux IP multicast router 0.06 plus PIM-SM
NET4: Unix domain sockets 1.0/SMP for Linux NET4.0.
kjournald starting. Commit interval 5 seconds
EXT3-fs: mounted filesystem with ordered data mode.
VFS: Mounted root (ext3 filesystem) readonly.
Freeing unused kernel memory: 264k freed
Adding Swap: 200804k swap-space (priority -1)
EXT3 FS 2.4-0.9.19, 19 August 2002 on ide0(3,1), internal journal
kjournald starting. Commit interval 5 seconds
EXT3 FS 2.4-0.9.19, 19 August 2002 on ide0(3,2), internal journal
EXT3-fs: mounted filesystem with ordered data mode.
kjournald starting. Commit interval 5 seconds
EXT3 FS 2.4-0.9.19, 19 August 2002 on ide0(3,3), internal journal
EXT3-fs: mounted filesystem with ordered data mode.
eth0: link up, 100Mbps, full-duplex, lpa 0x45E1
root@server2:/#
Tiskni
Sdílej:
ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.