>> В кластере, только крепкая стойка полностью забита не 1U, а шассями
> Душевная вещица. Шасси, как я понял, своё.По сути для МГУ "Ломоносов" и разрабатывавшееся.
>> (извиняюсь за ужасный кернинг -- могу завтра попросить у Нетча pdf и выложить,
>> если будет полезен)
> Интересно.
Завтра всё же наступило :)
http://ftp.linux.kiev.ua/pub/Linux/xpandrx/highload_2011.pdf
> А что-нибудь пытались из готовых систем гонять пред написанием такой вещицы?
См. начальные слайды первой ссылки из #101 -- не помню точно уже список (опять же могу уточнить у техдира при надобности), но ганглии и компания не подошли скорее совсем.
> Интересно насколько у остальных дело хуже.
Сейчас не знаю, а IIRC на ISC'09 ни у IBM, ни у HP, ни у других ClusterVision ничего для оперативного мониторинга с латентностью лучше минуты не было...
Пожалуй что единственное оперативно _собирающее_ данные решение, пусть и без особых возможностей реакции (хотя пороги недавно прикрутили) -- http://collectd.org. Но там собиралка хоть и сишная да нефоркающаяся каждый раз для большинства датчиков, всё-таки юзерспейсная, а тут и IPMI можно из ядра опрашивать -- накладные расходы заметно меньше.
PS: извиняюсь, если это совсем нахальная самореклама -- мне-то интересно вытащить технологию к тем, кому она также может быть полезна, вот только связи с ними толком нету... а так -- можно опубликовать первую версию САОО, сделанную нами для МГУ "Чебышев" -- это компактный код на Erlang, конфигурируемый в исходниках. Вторая версия закладывается для конфигурирования на гораздо более развесистую инфраструктуру, читать (и разворачивать) шибко много.