The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

форумы  помощь  поиск  регистрация  майллист  вход/выход  слежка  RSS
"Zabbix, мониторинг нестабильных хостов"
Вариант для распечатки  
Пред. тема | След. тема 
Форум Оптимизация и Промышленные системы (Увеличение наджности)
Изначальное сообщение [ Отслеживать ]

"Zabbix, мониторинг нестабильных хостов"  +/
Сообщение от prodvi (ok) on 06-Июл-15, 10:48 
Друзья, приветствую!
В качестве мониторинг-сервера используется Zabbix, но есть хосты, которые часто падают и поднимаются, в нагиосе есть настройка дополнительной проверки данных хостов, чтобы исключить "холостые" письма на почту, в заббиксе же не могу найти подобного.
Подскажите как сделать так, чтобы при падении хоста он не сразу слал письмо, а к примеру после 2-3х проверок через N-сек, либо хотя бы просто после N-ого кол-ва проверок через заданный в шаблоне ping интервал
Ответить | Правка | Cообщить модератору

Оглавление

Сообщения по теме [Сортировка по времени | RSS]


1. "Zabbix, мониторинг нестабильных хостов"  +/
Сообщение от alex (??) on 06-Июл-15, 18:07 
> Друзья, приветствую!
> В качестве мониторинг-сервера используется Zabbix, но есть хосты, которые часто падают
> и поднимаются, в нагиосе есть настройка дополнительной проверки данных хостов, чтобы
> исключить "холостые" письма на почту, в заббиксе же не могу найти
> подобного.
> Подскажите как сделать так, чтобы при падении хоста он не сразу слал
> письмо, а к примеру после 2-3х проверок через N-сек, либо хотя
> бы просто после N-ого кол-ва проверок через заданный в шаблоне ping
> интервал

http://blog.zabbix.com/no-more-flapping-define-triggers-the-.../

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

2. "Zabbix, мониторинг нестабильных хостов"  +/
Сообщение от Andrey Mitrofanov on 06-Июл-15, 18:52 
>> бы просто после N-ого кол-ва проверок через заданный в шаблоне ping
>> интервал
> blog.zabbix.com/no-more-flapping-define-triggers-the-smart-way/1488/

Там опечатка в
({TRIGGER.VALUE}=1 & {Oracle DB1:system.cpu.load.min(10m)} > 0.5)

, либо
({TRIGGER.VALUE}=1 & {Oracle DB1:system.cpu.load.max(10m)} > 0.5)

, либо [min() не нужен]
({TRIGGER.VALUE}=1 & {Oracle DB1:system.cpu.load.last(0)} > 0.5)

++https://www.zabbix.com/documentation/2.2/manual/config/trigg...

Ответить | Правка | ^ к родителю #1 | Наверх | Cообщить модератору

4. "Zabbix, мониторинг нестабильных хостов"  +/
Сообщение от Аноним (??) on 11-Июл-15, 05:41 
>> blog.zabbix.com/no-more-flapping-define-triggers-the-smart-way/1488/
> Там опечатка в
> ({TRIGGER.VALUE}=1 & {Oracle DB1:system.cpu.load.min(10m)} > 0.5)

тут всё правильно. Если была проблема и минимальная загрузка всё ещё выше 0.5 - продолжаем считать дела дрянью. Что там в максимуме нам не интересно.
> , либо
> ({TRIGGER.VALUE}=1 & {Oracle DB1:system.cpu.load.max(10m)} > 0.5)

и так можно, но тут как раз интересен максимум ...
> , либо [min() не нужен]
> ({TRIGGER.VALUE}=1 & {Oracle DB1:system.cpu.load.last(0)} > 0.5)

а вот так нельзя, Ыгсперт :)  иначе вся твоя anti-flap техника пойдёт по боку, и тригер будет флапать :)

PS: Превед от тупых BSD-шнегов :)  


Ответить | Правка | ^ к родителю #2 | Наверх | Cообщить модератору

5. "Zabbix, мониторинг нестабильных хостов"  +/
Сообщение от Andrey Mitrofanov on 11-Июл-15, 09:53 
>> Там опечатка в
>> ({TRIGGER.VALUE}=1 & {Oracle DB1:system.cpu.load.min(10m)} > 0.5)
> тут всё правильно.
>> , либо [min() не нужен]
>> ({TRIGGER.VALUE}=1 & {Oracle DB1:system.cpu.load.last(0)} > 0.5)
> а вот так нельзя, Ыгсперт :)  иначе вся твоя anti-flap техника
> пойдёт по боку, и тригер будет флапать :)

Не будет. Я тебе как профессионал говорю. Обяснять надо?

> PS: Превед от тупых BSD-шнегов :)

Это успех! Популярность моя растёт. Над аудиторией надо работать.

Ответить | Правка | ^ к родителю #4 | Наверх | Cообщить модератору

6. "Zabbix, мониторинг нестабильных хостов"  +/
Сообщение от Аноним (??) on 11-Июл-15, 18:27 
>>> ({TRIGGER.VALUE}=1 & {Oracle DB1:system.cpu.load.last(0)} > 0.5)
>> а вот так нельзя, Ыгсперт :)  иначе вся твоя anti-flap техника
>> пойдёт по боку, и тригер будет флапать :)
> Не будет. Я тебе как профессионал говорю. Обяснять надо?

Надо!
Только учти - я (гад такой, беесдешнег) заметил что в предыдущих формулах у тебя агрегат на 10 минутах, а тут last(0) ... и > того же самого 0.5 :-)

Теперь начинай объяснять, профессионал :)


>> PS: Превед от тупых BSD-шнегов :)
> Это успех! Популярность моя растёт. Над аудиторией надо работать.

Неее - это судьба. Вот говорят Вилли Токарев хотел в опере петь, а всю жизнь пропел для зеков :) Не ты выбираешь аудиторию, в СССР аудитория выбирает тебя :)

Ответить | Правка | ^ к родителю #5 | Наверх | Cообщить модератору

7. "Zabbix, мониторинг нестабильных хостов"  +/
Сообщение от Andrey Mitrofanov on 11-Июл-15, 21:28 
>>>> ({TRIGGER.VALUE}=1 & {Oracle DB1:system.cpu.load.last(0)} > 0.5)
>>> а вот так нельзя, Ыгсперт :)  иначе вся твоя anti-flap техника
>>> пойдёт по боку, и тригер будет флапать :)
>> Не будет. Я тебе как профессионал говорю. Обяснять надо?
> Надо!
> Только учти - я (гад такой, беесдешнег) заметил что в предыдущих формулах
> у тебя агрегат на 10 минутах, а тут last(0) ... и
> > того же самого 0.5 :-)
> Теперь начинай объяснять, профессионал :)

Да, на здоровье. Тебе ещё никто не говорил, что меня толкачём в ступе ловить - себе дороже. Ну, ещё скажут, не вечер.

Итак,
исходный триггер (формула оного):

({TRIGGER.VALUE}=0 & {Oracle DB1:system.cpu.load.min(5m)} > 2)
|
({TRIGGER.VALUE}=1 & {Oracle DB1:system.cpu.load.min(10m)} > 0.5)

Предлагаемый мной ваниант (с моим вторым вариантом второй половины):

({TRIGGER.VALUE}=0 & {Oracle DB1:system.cpu.load.min(5m)} > 2)
|
({TRIGGER.VALUE}=1 & {Oracle DB1:system.cpu.load.max(10m)} > 0.5)

Для б3дэшников, вот прямо так на пальцах: исходно триггер в OK ({TRIGGER.VALUE}=0) на последовательности [сверху вниз!] вх.хначений (с опросом, скажем раз в минуту), например,


0 0 0 0 0 0 0.01 0.1 1 2
3 5 5 5 5 5 5 5 5 5
5(*) 5 5 5 5 5 5 4 3 2
1 0.1 0.01 0 0 0 0 0 0 0
0(**) 0 0 0 0 0 0

Мой триггер включится(PROBLEM) после отсчёта с отметкой(*) и выключится(ОК) - после (**). Или как-то около того.

Оставляю в качестве упражнения Вам, коллега, привести состояние и/или последовательность событий, при котором(-ых) триггер с моей формулой будет "флапать", ну, скажем чаще, чем раз в 9 минут. И да, поменять ">0.5" на ">{$NN}", где {$NN} > 2, _не_предлагать_.

Также в качестве упражнения можете убедиться в правильности моего утверждения, что исходный триггер (тот, что с опечатной - в статье) будет вести себя _ровно_ так же, как оне же с .min(10m) заменённым на .last(0).

Успехов!

>>> PS: Превед от тупых BSD-шнегов :)
>> Это успех! Популярность моя растёт. Над аудиторией надо работать.
> Неее - это судьба. Вот говорят Вилли Токарев хотел в опере петь,
> а всю жизнь пропел для зеков :) Не ты выбираешь аудиторию,
> в СССР аудитория выбирает тебя :)

Опера? Петь? Я подумаю!!

Ответить | Правка | ^ к родителю #6 | Наверх | Cообщить модератору

3. "Zabbix, мониторинг нестабильных хостов"  +/
Сообщение от karapet.ag on 07-Июл-15, 09:51 
> Подскажите как сделать так, чтобы при падении хоста он не сразу слал
> письмо, а к примеру после 2-3х проверок через N-сек, либо хотя
> бы просто после N-ого кол-ва проверок через заданный в шаблоне ping
> интервал

Посмотрите на эскалации https://www.zabbix.com/documentation/2.2/ru/manual/config/no...

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру