Поставили новый сервер Dell PowerEdge 1950 II 2 x Dual-Core XEON 3.0Ghz
Проработал сутки, потом увидел по графику загрузку Load averages = 20. Небыло доступа не по ссш, не по локальной консоли. Хотя как маршрутизатор он продолжал работать. Полечилось хардовым рестартом. Сейчас работает:
# uptime
# 5:31PM up 1 day, 2 mins, 1 user, load averages: 0.57, 0.39, 0.37
Траффик до 150мбит
Из основных программ стоят:
Kernel NAT
Dummynet
bind
quaggaКарточки Broadcom® NetXtreme IITM 5708 Gigabit5
#uname -a
#FreeBSD billing 8.2-STABLE FreeBSD 8.2-STABLE #0: Fri Sep 16 10:03:58 UTC 2011 morfey@border:/usr/obj/usr/src/sys/kernel_15.09.2011 amd64Со свого в ядре добавил :
options IPFIREWALL
options IPFIREWALL_VERBOSE
options IPFIREWALL_VERBOSE_LIMIT=20
options IPFIREWALL_FORWARD
options IPDIVERT
options DUMMYNET
#options IPFIREWALL_DEFAULT_TO_ACCEPT
options IPFIREWALL_NAT
options LIBALIAS
options ROUTETABLES=2Из тюнинга:
net.inet.ip.intr_queue_maxlen=5000
kern.ipc.maxsockbuf=8388608
kern.ipc.nmbclusters=65000
#kern.polling.idle_poll=1
net.inet.udp.blackhole=1
net.inet.icmp.icmplim=50
kern.ipc.somaxconn=32768
net.inet.tcp.log_in_vain=0
net.inet.udp.log_in_vain=0
net.inet.tcp.blackhole=2
net.inet.udp.blackhole=1
net.inet.ip.fastforwarding=1
net.inet.ip.portrange.randomized=0
net.inet.tcp.nolocaltimewait=1
net.inet.icmp.drop_redirect=1
net.inet.ip.redirect=0
net.inet.tcp.drop_synfin=1
net.inet.icmp.icmplim=2000
Влогах пусто.Знакомые говорят что может быть interrupt storm. Но тазик фирменный, не самосборный. Так что маловероятно.
У кого какие идеи ? :)
> Знакомые говорят что может быть interrupt storm. Но тазик фирменный, не
> самосборный. Так что маловероятно.
> У кого какие идеи ? :)Попробуйте включить поллинг. Если с включенным поллингом проблема повториться, то причина не в прерываниях
Может quagga full view не осилила?
load average 20 = 20 активных процессов одновременно хотят процессорную секунду.
Или прерываний.В свое время для поиска неведомой фигни каждую минуту запускался скрипт, который сохранял ps и top в отдельный файл.
Если что - не брезгуйте.
> Может quagga full view не осилила?Свежая - вряд ли, два fw пережевывает не напрягая машину...
> load average 20 = 20 активных процессов одновременно хотят процессорную секунду.
> Или прерываний.vmstat -i ?
> В свое время для поиска неведомой фигни каждую минуту запускался скрипт, который
> сохранял ps и top в отдельный файл.
> Если что - не брезгуйте.можно atop поставить
> Из основных программ стоят:
> Kernel NAT
> Dummynet
> bind
> quaggaА апач у Вас там есть? Может это результат его недавнего бага с диапазонами (Range)?
>> Из основных программ стоят:
>> Kernel NAT
>> Dummynet
>> bind
>> quagga
> А апач у Вас там есть? Может это результат его недавнего бага
> с диапазонами (Range)?Apache 2.2.21
Fw не держим.#vmstat -i
irq1: atkbd0 72 0irq14: ata0 35 0
irq20: uhci1 151964. 1
irq21: uhci0 uhci2+ 149036 0
cpu0: timer 298177177 1964
irq256: bce0 564726449 3720
irq257: mpt0 3287893 21
irq258: bce1 774003527 5099
cpu3: timer 298062336 1963
cpu2: timer 298062336 1963
cpu1: timer 298062336 1963
Total 2534789896 16700
> #vmstat -iна шторм непохоже, а вот в ядре я бы добавил
options HZ=4000
К сожалению деловского менеджмента не довелось повидать, по процессорам стоит 4 ядра, почему загруз 20% а не 25? или там стата взята с куском где загрузки небыло?если загруз в момент "глюка" был именно 20% то это скорей всего на шторм (правда какой именно трудно сказать) похоже, если 25 то возможно процесс какой-то с ума сходил.
Шейпер попробуйте к ядру привязать, на 54хх-55хх ксеонах были проблемы про дуалкоры не знаю, наводка cpuset, думаю найдете сами..?
для мониторинга думаю понадобится как минимум логи top -SCH
> К сожалению деловского менеджмента не довелось повидать, по процессорам стоит 4 ядра,
> почему загруз 20% а не 25? или там стата взята с
> куском где загрузки небыло?
> если загруз в момент "глюка" был именно 20% то это скорей всего
> на шторм (правда какой именно трудно сказать) похоже, если 25 то
> возможно процесс какой-то с ума сходил.
> Шейпер попробуйте к ядру привязать, на 54хх-55хх ксеонах были проблемы про дуалкоры
> не знаю, наводка cpuset, думаю найдете сами..?
> для мониторинга думаю понадобится как минимум логи top -SCHПо графику до ребута было 20, хз сколько было на самом деле, т.к. на сервер меня не пускало, а какус мог немного врать
> По графику до ребута было 20, хз сколько было на самом деле,
> т.к. на сервер меня не пускало, а какус мог немного вратьа на ИЛОшном экране что-то показывало? Если показывало то в нулевую консоль запускайте для начала top с ключиками и ждите следующего фокуса..
> а на ИЛОшном экране что-то показывало? Если показывало то в нулевую консоль
> запускайте для начала top с ключиками и ждите следующего фокуса..Небыло, топ уже логируется :)
Ну вот, уже 4 суток прошло, и ничего не происходит. Только видел в логах
ipfw: pullup failed. И все.
> Ну вот, уже 4 суток прошло, и ничего не происходит. Только видел
> в логах
> ipfw: pullup failed. И все.la = 25 :(
last pid: 57056; load averages: 25.11, 25.15, 25.13 up 2+18:16:45 18:25:01
244 processes: 32 running, 192 sleeping, 1 stopped, 19 waitingMem: 536M Active, 1425M Inact, 837M Wired, 880K Cache, 827M Buf, 5110M Free
Swap: 13G Total, 13G FreePID USERNAME PRI NICE SIZE RES STATE C TIME CPU COMMAND
11 root 171 ki31 0K 64K RUN 1 60.8H 100.00% {idle: cpu1}
20 root 20 - 0K 16K CPU0 0 55.3H 100.00% [flowcleaner]
11 root 171 ki31 0K 64K RUN 3 60.2H 98.00% {idle: cpu3}
11 root 171 ki31 0K 64K RUN 2 59.5H 92.38% {idle: cpu2}
0 root -68 0 0K 128K - 2 259:11 4.69% {dummynet}
12 root -68 - 0K 304K WAIT 3 226:11 4.05% {irq256: bce0}
12 root -68 - 0K 304K WAIT 1 241:21 3.86% {irq258: bce1}Кто такой flowcleaner и куда делся cpu0 ? :)
Установил net.inet.flowtable.enable=0. О результатах отпишусь
> Кто такой flowcleaner и куда делся cpu0 ? :)Убейте его, про него многое чего плохого писали. это из flow-tools, и без него можно жить.
>> Кто такой flowcleaner и куда делся cpu0 ? :)
> Убейте его, про него многое чего плохого писали. это из flow-tools,
> и без него можно жить.Да, все гут
billing# uptime
2:23PM up 5 days, 19:31, 1 user, load averages: 0.46, 0.45, 0.49