URL: https://www.opennet.ru/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID1
Нить номер: 92316
[ Назад ]

Исходное сообщение
"Странная работа сервера"

Отправлено morfey , 22-Сен-11 18:41 
Поставили новый сервер Dell PowerEdge 1950 II 2 x Dual-Core XEON 3.0Ghz
Проработал сутки, потом увидел по графику загрузку Load averages = 20. Небыло доступа не по ссш, не по локальной консоли. Хотя как маршрутизатор он продолжал работать. Полечилось хардовым рестартом. Сейчас работает:
# uptime
# 5:31PM  up 1 day, 2 mins, 1 user, load averages: 0.57, 0.39, 0.37
Траффик до 150мбит
Из основных программ стоят:
Kernel NAT
Dummynet
bind
quagga

Карточки Broadcom®  NetXtreme IITM  5708 Gigabit5
#uname -a
#FreeBSD billing 8.2-STABLE FreeBSD 8.2-STABLE #0: Fri Sep 16 10:03:58 UTC 2011     morfey@border:/usr/obj/usr/src/sys/kernel_15.09.2011  amd64

Со свого в ядре добавил :

options  IPFIREWALL
options  IPFIREWALL_VERBOSE
options  IPFIREWALL_VERBOSE_LIMIT=20
options  IPFIREWALL_FORWARD
options  IPDIVERT
options  DUMMYNET
#options IPFIREWALL_DEFAULT_TO_ACCEPT
options  IPFIREWALL_NAT
options  LIBALIAS
options  ROUTETABLES=2

Из тюнинга:

net.inet.ip.intr_queue_maxlen=5000
kern.ipc.maxsockbuf=8388608
kern.ipc.nmbclusters=65000
#kern.polling.idle_poll=1
net.inet.udp.blackhole=1
net.inet.icmp.icmplim=50
kern.ipc.somaxconn=32768
net.inet.tcp.log_in_vain=0
net.inet.udp.log_in_vain=0
net.inet.tcp.blackhole=2
net.inet.udp.blackhole=1
net.inet.ip.fastforwarding=1
net.inet.ip.portrange.randomized=0
net.inet.tcp.nolocaltimewait=1
net.inet.icmp.drop_redirect=1
net.inet.ip.redirect=0
net.inet.tcp.drop_synfin=1
net.inet.icmp.icmplim=2000


Влогах пусто.

Знакомые говорят что может быть  interrupt storm. Но тазик фирменный, не самосборный. Так что маловероятно.
У кого какие идеи ? :)


Содержание

Сообщения в этом обсуждении
"Странная работа сервера"
Отправлено wiseman , 22-Сен-11 20:41 

> Знакомые говорят что может быть  interrupt storm. Но тазик фирменный, не
> самосборный. Так что маловероятно.
> У кого какие идеи ? :)

Попробуйте включить поллинг. Если с включенным поллингом проблема повториться, то причина не в прерываниях


"Странная работа сервера"
Отправлено XoRe , 23-Сен-11 01:30 
Может quagga full view не осилила?
load average 20 = 20 активных процессов одновременно хотят процессорную секунду.
Или прерываний.

В свое время для поиска неведомой фигни каждую минуту запускался скрипт, который сохранял ps и top в отдельный файл.
Если что - не брезгуйте.


"Странная работа сервера"
Отправлено YuryD , 23-Сен-11 06:59 
> Может quagga full view не осилила?

Свежая - вряд ли, два fw пережевывает не напрягая машину...

> load average 20 = 20 активных процессов одновременно хотят процессорную секунду.
> Или прерываний.

vmstat -i ?


"Странная работа сервера"
Отправлено universite , 23-Сен-11 23:46 

> В свое время для поиска неведомой фигни каждую минуту запускался скрипт, который
> сохранял ps и top в отдельный файл.
> Если что - не брезгуйте.

можно atop поставить


"Странная работа сервера"
Отправлено Moomintroll , 23-Сен-11 08:54 
> Из основных программ стоят:
> Kernel NAT
> Dummynet
> bind
> quagga

А апач у Вас там есть? Может это результат его недавнего бага с диапазонами (Range)?


"Странная работа сервера"
Отправлено morfey , 23-Сен-11 12:53 
>> Из основных программ стоят:
>> Kernel NAT
>> Dummynet
>> bind
>> quagga
> А апач у Вас там есть? Может это результат его недавнего бага
> с диапазонами (Range)?

Apache 2.2.21
Fw не держим.

#vmstat -i
irq1:      atkbd0 72 0

irq14: ata0 35 0
irq20:  uhci1 151964. 1
irq21: uhci0 uhci2+ 149036 0
cpu0: timer 298177177 1964
irq256:   bce0 564726449 3720
irq257: mpt0 3287893 21
irq258: bce1 774003527 5099
cpu3: timer 298062336 1963
cpu2: timer 298062336 1963
cpu1: timer 298062336 1963
Total 2534789896 16700


"Странная работа сервера"
Отправлено YuryD , 23-Сен-11 13:25 
> #vmstat -i

на шторм непохоже, а вот в ядре я бы добавил
options         HZ=4000


"Странная работа сервера"
Отправлено 2ihi , 23-Сен-11 13:16 
К сожалению деловского менеджмента не довелось повидать, по процессорам стоит 4 ядра, почему загруз 20% а не 25? или там стата взята с куском где загрузки небыло?

если загруз в момент "глюка" был именно 20% то это скорей всего на шторм (правда какой именно трудно сказать) похоже, если 25 то возможно процесс какой-то с ума сходил.

Шейпер попробуйте к ядру привязать, на 54хх-55хх ксеонах были проблемы про дуалкоры не знаю, наводка cpuset, думаю найдете сами..?

для мониторинга думаю понадобится как минимум логи top -SCH


"Странная работа сервера"
Отправлено morfey , 23-Сен-11 19:33 
> К сожалению деловского менеджмента не довелось повидать, по процессорам стоит 4 ядра,
> почему загруз 20% а не 25? или там стата взята с
> куском где загрузки небыло?
> если загруз в момент "глюка" был именно 20% то это скорей всего
> на шторм (правда какой именно трудно сказать) похоже, если 25 то
> возможно процесс какой-то с ума сходил.
> Шейпер попробуйте к ядру привязать, на 54хх-55хх ксеонах были проблемы про дуалкоры
> не знаю, наводка cpuset, думаю найдете сами..?
> для мониторинга думаю понадобится как минимум логи top -SCH

По графику до ребута было 20, хз сколько было на самом деле, т.к. на сервер меня не пускало, а какус мог немного врать


"Странная работа сервера"
Отправлено 2ihi , 23-Сен-11 20:55 
> По графику до ребута было 20, хз сколько было на самом деле,
> т.к. на сервер меня не пускало, а какус мог немного врать

а на ИЛОшном экране что-то показывало? Если показывало то в нулевую консоль запускайте для начала top с ключиками и ждите следующего фокуса..


"Странная работа сервера"
Отправлено morfey , 26-Сен-11 00:05 
> а на ИЛОшном экране что-то показывало? Если показывало то в нулевую консоль
> запускайте для начала top с ключиками и ждите следующего фокуса..

Небыло, топ уже логируется :)


"Странная работа сервера"
Отправлено morfey , 27-Сен-11 10:37 
Ну вот, уже 4 суток прошло, и ничего не происходит. Только видел в логах
ipfw: pullup failed. И все.

"Странная работа сервера"
Отправлено morfey , 01-Окт-11 20:01 
> Ну вот, уже 4 суток прошло, и ничего не происходит. Только видел
> в логах
> ipfw: pullup failed. И все.

la = 25 :(


last pid: 57056;  load averages: 25.11, 25.15, 25.13  up 2+18:16:45    18:25:01
244 processes: 32 running, 192 sleeping, 1 stopped, 19 waiting

Mem: 536M Active, 1425M Inact, 837M Wired, 880K Cache, 827M Buf, 5110M Free
Swap: 13G Total, 13G Free

  PID USERNAME PRI NICE   SIZE    RES STATE   C   TIME    CPU COMMAND
   11 root     171 ki31     0K    64K RUN     1  60.8H 100.00% {idle: cpu1}
   20 root      20    -     0K    16K CPU0    0  55.3H 100.00% [flowcleaner]
   11 root     171 ki31     0K    64K RUN     3  60.2H 98.00% {idle: cpu3}
   11 root     171 ki31     0K    64K RUN     2  59.5H 92.38% {idle: cpu2}
    0 root     -68    0     0K   128K -       2 259:11  4.69% {dummynet}
   12 root     -68    -     0K   304K WAIT    3 226:11  4.05% {irq256: bce0}
   12 root     -68    -     0K   304K WAIT    1 241:21  3.86% {irq258: bce1}

Кто такой flowcleaner и куда делся cpu0 ? :)


"Странная работа сервера"
Отправлено morfey , 02-Окт-11 01:25 
Установил net.inet.flowtable.enable=0. О результатах отпишусь

"Странная работа сервера"
Отправлено YuryD , 03-Окт-11 07:23 
> Кто такой flowcleaner и куда делся cpu0 ? :)

Убейте его, про него многое чего плохого писали. это из flow-tools, и без него можно жить.


"Странная работа сервера"
Отправлено morfey , 07-Окт-11 15:24 
>> Кто такой flowcleaner и куда делся cpu0 ? :)
>  Убейте его, про него многое чего плохого писали. это из flow-tools,
> и без него можно жить.

Да, все гут


billing# uptime
2:23PM  up 5 days, 19:31, 1 user, load averages: 0.46, 0.45, 0.49