The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]

Сбой системы хранения привёл к недоступности более 44 серверов проекта Debian

28.04.2020 20:20

Разработчики проекта Debian предупредили о значительном сбое в инфраструктуре, обеспечивающей разработку и поддержание дистрибутива. Из-за проблем в системе хранения из строя выведено несколько десятков серверов проекта, размещённых на площадке UBC. В предварительном списке указано 44 сервера, но список не полный.

Для восстановления требуются манипуляции с переключением питания, но попытки получить доступ к системе хранения пока не увенчались успехом из-за ограничений, связанных с COVID19 (доступ посторонним в дата-центр закрыт, а персонал техподдержки главным образом работает на дому). Ожидается, что через сотрудника необходимые действия получится выполнить самое раннее через 7 часов.

Среди затронутых сервисов: salsa.debian.org (Git-хостинг), система мониторинга, компоненты контроля качества, i18n.debian.org, SSO (single sign on), bugs-master.debian.org, почтовый релей, первичный web-сервер для backports, основной сервер autobuild, debdelta.debian.net, tracker.debian.org, ssh.debian.org, people.debian.org, jenkins, генератор метаданных в формате appstream, manpages.debian.org, buildd, historical.packages.debian.org.

Обновление: Работу хранилища удалось восстановить без физического присутствия. Отключённые сервисы возвращены в строй.

  1. Главная ссылка к новости (https://lists.debian.org/debia...)
  2. OpenNews: Причины недоступности и утери данных на хостинге Savannah.gnu.org
  3. OpenNews: Сбой в инфраструктуре привёл к недоступности серверов Red Hat, Fedora и GNOME
  4. OpenNews: Сбой диска на рабочей станции Линуса Торвальдса нарушил приём изменений для ядра 3.12
  5. OpenNews: Репозиторий NPM семь часов был недоступен через прокси
  6. OpenNews: Серьёзная уязвимость в инфраструктуре проекта Fedora Linux
Лицензия: CC-BY
Тип: Обобщение
Короткая ссылка: https://opennet.ru/52829-debian
Ключевые слова: debian, failure
При перепечатке указание ссылки на opennet.ru обязательно
Обсуждение (51) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.2, Аноним (2), 20:28, 28/04/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • –50 +/
    Ха-ха-ха. Пользуйтесь дальше своей инфраструктурой, пользуйтесь. GitHub ведь такое зло.
     
     
  • 2.3, Аноним (3), 20:30, 28/04/2020 [^] [^^] [^^^] [ответить]  
  • +13 +/
    Этого забанить на гитхабе. Пишите на почту, разберёмся потом как-нибудь.
     
  • 2.8, vlad (??), 20:42, 28/04/2020 [^] [^^] [^^^] [ответить]  
  • +5 +/
    причем тут github? тут речь вообще о других по сути сервисах
     
     
  • 3.40, Аноним (2), 00:15, 29/04/2020 [^] [^^] [^^^] [ответить]  
  • +/
    ctrl+f, salsa
     
  • 2.45, Аноним (45), 05:33, 29/04/2020 [^] [^^] [^^^] [ответить]  
  • +3 +/
    Упадёт дата-центр у гитхаба, как будешь говорить?
     
     
  • 3.47, Аноним (47), 07:07, 29/04/2020 [^] [^^] [^^^] [ответить]  
  • +4 +/
    > как будешь говорить?

    GitHub is Down: 25 февраля - https://news.ycombinator.com/item?id=22414534 ; 4 апреля - https://news.ycombinator.com/item?id=22802536

     
  • 3.49, Аноним (-), 07:44, 29/04/2020 [^] [^^] [^^^] [ответить]  
  • +9 +/
    Оглушительно молчать он будет. Анацефал не понимает зачем нужна своя инфраструктура, поскольку нигде и никогда не работал всерьёз.
     

  • 1.5, анонимчик (?), 20:38, 28/04/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    blackout!
     
     
  • 2.48, Аноним (47), 07:08, 29/04/2020 [^] [^^] [^^^] [ответить]  
  • +1 +/
    lockdown!
     

  • 1.6, Michael Shigorin (ok), 20:41, 28/04/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • –6 +/
    Эх.  Опять все яйца в одной корзине вместо "старомодного" разнесения данных туда, где они нужны.

    PS: удачи в восстановлении коллегам.

     
     
  • 2.11, A.Stahl (ok), 20:51, 28/04/2020 [^] [^^] [^^^] [ответить]  
  • +3 +/
    >a number of services hosted at UBC are currently offline

    Я не знаю как на самом деле, но фраза составлена так, что создаётся впечатление что UBC не единственный их хостер. Так что всё нормально: яйца в одной куче, корзины -- в другой.

     
     
  • 3.17, Michael Shigorin (ok), 21:09, 28/04/2020 [^] [^^] [^^^] [ответить]  
  • –2 +/
    > Я не знаю как на самом деле, но фраза составлена так, что
    > создаётся впечатление что UBC не единственный их хостер.

    Я про соотношение "хранилки-машинки"...

     
  • 2.26, нах. (?), 21:59, 28/04/2020 [^] [^^] [^^^] [ответить]  
  • –5 +/
    Миша, а ты правда не видел ролика с хером на самокате, несущемся менять картонку в гуглохренилище?

    Когда серверов становится больше десятка - зае...шься ты на самокате между ними гонять, без конца выдирая сдохшие диски и перезаливая сдохшие вместе с диском. А денег у прожекта дебиан немного меньше, чем у гугля, где это хотя бы делают дешевые рабы.

    Ну и дай угадаю - они выбрали самый помойный ДЦ и сама хранилка - 6ешплатная из г-на и палок, палки - хорошо если от супермикры.

    Потому что у меня:
    Dear Client,

    we are 24/7 available at the datacenter. Shall we schedule the maintenance to
    take place tonight at 19:00 CEST?

    - и да, мое дешевое г-но в этот раз починили.

     
     
  • 3.29, Michael Shigorin (ok), 22:12, 28/04/2020 [^] [^^] [^^^] [ответить]  
  • +/
    > Миша, а ты правда не видел ролика с хером на самокате,
    > несущемся менять картонку в гуглохренилище?

    Не-а.

    > Когда серверов становится больше десятка - зае...шься ты на самокате
    > между ними гонять, без конца выдирая сдохшие диски и перезаливая
    > сдохшие вместе с диском.

    Сами думаем, как именно дальше идти.  Но нам проще, выбор есть.

     
     
  • 4.31, нах. (?), 22:19, 28/04/2020 [^] [^^] [^^^] [ответить]  
  • +/
    > Сами думаем, как именно дальше идти.  Но нам проще, выбор есть.

    ну, у вас, я так понимаю - выбор из палок и палок, а не между netapp и 3par.


     
     
  • 5.32, Michael Shigorin (ok), 22:23, 28/04/2020 [^] [^^] [^^^] [ответить]  
  • +/
    >> Сами думаем, как именно дальше идти.  Но нам проще, выбор есть.
    > ну, у вас, я так понимаю - выбор из палок и палок,
    > а не между netapp и 3par.

    Ну мы, положим, можем и bitblaze взять, у них есть и двухголовые.
    Вопрос в том, надо ли.  Netapp точно ни к чему.

     
     
  • 6.36, evkogan (?), 23:27, 28/04/2020 [^] [^^] [^^^] [ответить]  
  • +/
    Раз вопрос есть, значит нужды нет :)

    Но вот меня сразу начинает смущать способность инфраструктурной конторы делать сервисы с 99,(9) если они себе такой сделать не хотят.
    Интересно почему bitblaze можете, а netapp нет.
    Я не верю что bitblaze дешевле. На их странице главное преимущество это Эльбрус. Меня конечно распирает гордость, что появилась СХД на отечественной компонентной базе, но смущает, что другие достоинства (производительность, эффективность хранения, пресловутые девятки) не упомянуты совсем.
    Даже гос конторы до сих пор покупают импортные СХД, просто NetApp стал китайским Lenovo (OEM).
    Или есть Израильский Infinidat. Ну или честный Китайский Huawei. В общем найти можно.
    Вы настолько религиозны?

     
     
  • 7.37, нах. (?), 23:49, 28/04/2020 [^] [^^] [^^^] [ответить]  
  • –1 +/
    > Интересно почему bitblaze можете, а netapp нет.

    нескрепно. А святой воды не достать - поп на карантине.

    > Даже гос конторы до сих пор покупают импортные СХД, просто NetApp стал
    > китайским Lenovo (OEM).

    ААААААА! Ты бы видел, что при этом происходит, когда такой китайский netapp отваливается от китайской леновы. Жаль, у нас, наверное, теперь не будет денег повторить эти гастроли бл...ского цирка.

    > Ну или честный Китайский Huawei.

    и что, в дефаулт сити есть хоть один смелый кто с ним работал? (и богатый, ибо ocean stor, или как там у них нынче модно, обойдется в копеечку)
    А то китайская честность, она такая... китайская.

     
     
  • 8.38, evkogan (?), 00:08, 29/04/2020 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Можно подробнее подключение FC Отваливаются все сервера разом И главное каког... текст свёрнут, показать
     
     
  • 9.53, нах. (?), 10:04, 29/04/2020 [^] [^^] [^^^] [ответить]  
  • +/
    угу, fc, нет, один конкретный - и он - ленова, и, главное - оба угодили в общий ... текст свёрнут, показать
     
  • 3.39, Crazy Alex (ok), 00:14, 29/04/2020 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Нсли так - то правильно сделали, что сэкономили. Нет там ничего, что должно иметь запредельные аптаймы. Зеркала никуда не делись, для текущих дел день перерыва - не проблема.
     
  • 2.61, Павел Николаевич (?), 16:47, 29/04/2020 [^] [^^] [^^^] [ответить]  
  • +/
    Ой, дак mirror.yandex.ru не упал ведь
     

  • 1.7, VINRARUS (ok), 20:42, 28/04/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • +7 +/
    >Для восстановления требуются манипуляции с переключением питания

    Я всегда говорил шо самая нужная в любом компьютере кнопка — кнопка перезагрузки!

     
     
  • 2.14, Аноним (-), 20:54, 28/04/2020 [^] [^^] [^^^] [ответить]  
  • +/
    А в чем проблема, "пилоты" управляемые через ВЕБ интерфейс уже перестали выпускать?
    Правда этого все же маловато будет.
     
     
  • 3.16, Michael Shigorin (ok), 21:08, 28/04/2020 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > А в чем проблема

    В том, что PDU не было, тащат.

    Кстати, когда-то на стендике в Massive Solutions хорошо себя зарекомендовали копеечные USB-шные Gembird SiS-PM с sispmctl.  Жаль, что сейчас одни тупоумные розетки продают, даже у китайцев такого не нашёл год-два назад.

     
  • 2.33, Аноним (33), 22:27, 28/04/2020 [^] [^^] [^^^] [ответить]  
  • +/
    Так может там питание пропало. Надо переключить питалово от другого ввода или как-то иначе.
     

  • 1.9, Аноним (9), 20:49, 28/04/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • +2 +/
    Электрика пусть попросят свет вырубить в датацетре
     
     
  • 2.12, VINRARUS (ok), 20:53, 28/04/2020 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Там автономное должно быть.
     
  • 2.27, нах. (?), 22:00, 28/04/2020 [^] [^^] [^^^] [ответить]  
  • +6 +/
    электрик из дома работает, сколько свой щиток не дергал - только соседям свет смог вырубить.

     

  • 1.13, Аноним (13), 20:54, 28/04/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • +2 +/
    packages.debian.org работает, debian.org работает, cdimage работает, а кто такие сальса я вообще не знаю...
     
     
  • 2.15, A.Stahl (ok), 20:57, 28/04/2020 [^] [^^] [^^^] [ответить]  
  • +2 +/
    > а кто такие сальса я вообще не знаю...

    Это то ли танец такой, то ли приправа a la кетчуп.


     
     
  • 3.24, Licha Morada (ok), 21:46, 28/04/2020 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Да, танец.
    Нет, salsa это собирательное для "соус" вообше, тупо перевод. "Соус сальса" это как "братья брозерс" или "водка алкогольная".
    Анонимус выше прав, то что критично для онлайна осталось в онлайне. А то что упало, оно неприятно, но не смертельно.
     
     
  • 4.64, Аноним (-), 16:32, 05/05/2020 [^] [^^] [^^^] [ответить]  
  • +/
    Нет, это совершенно определенный вид соусов. Да еще и ерундовых (на мой вкус) https://ru.wikipedia.org/wiki/%D0%A1%D0%B0%D0%BB)
     
     
  • 5.65, Licha Morada (ok), 18:28, 05/05/2020 [^] [^^] [^^^] [ответить]  
  • +/
    > Нет, это совершенно определенный вид соусов. Да еще и ерундовых (на мой
    > вкус) https://ru.wikipedia.org/wiki/%D0%A1%D0%B0%D0%BB)

    Русскоязычная Википедия замечательный ресурс, очень её люблю и всё время использую. Но в данном случае ей верить не надо.
    https://en.wikipedia.org/wiki/Salsa_(sauce) (Salsa is the Spanish word for "sauce".)
    https://www.rae.es/drae2001/salsa (Словарь испанской королевкой академии)

     
  • 2.22, myhand (ok), 21:35, 28/04/2020 [^] [^^] [^^^] [ответить]  
  • +/
    > packages.debian.org работает

    Ты просто не на все ссылки жал.

     
     
  • 3.25, Licha Morada (ok), 21:49, 28/04/2020 [^] [^^] [^^^] [ответить]  
  • +/
    Какие не?
     
  • 2.23, mfa (?), 21:46, 28/04/2020 [^] [^^] [^^^] [ответить]  
  • +1 +/
    водка с сальсомь
     

  • 1.21, myhand (ok), 21:35, 28/04/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Зато с инклюзивностью, поди, в Debian System Administration Team - теперь все в порядке.
     
  • 1.28, нах. (?), 22:04, 28/04/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • +2 +/
        Date: Tue, 28 Apr 2020 19:56:35 +0100

    Hi,

    After some further attempts, we have been able to restore storage
    functionality at UBC without needing Luca to travel to the site. Der
    Techniker ist erleichtert.

    All affected systems are now back online, and we will continue to
    monitor the situation.

    Thanks for your patience while we worked to resolve these issues.

     
     
  • 2.30, Michael Shigorin (ok), 22:13, 28/04/2020 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Sehr gut!
     
  • 2.46, freehck (ok), 05:50, 29/04/2020 [^] [^^] [^^^] [ответить]  
  • +/
    > have been able to restore storage functionality at UBC without needing Luca to travel to the site
    > Der Techniker ist erleichtert

    Бггг. "Техник вздохнул с облегчением". =)

     

  • 1.41, Аноним (41), 01:43, 29/04/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Раз в миллениум и Debian сбоит.
     
  • 1.42, Аноним (42), 01:52, 29/04/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    Раз упало значит нужно перевести на что то модно-молодёжное. Будет в духе сегодняшнего дебиана
     
     
  • 2.43, kio (?), 02:06, 29/04/2020 [^] [^^] [^^^] [ответить]  
  • +/
    Ну результаты работы трушной олдовой инфраструктуры с каноничным single point of failure аж на 44 сервера мы уже увидели. Виртуализация, резервирование, geo distribution - это все для хипстеров-смузихлебов. Трушно-свитерно - все посадить на один storage array в одном DC.
     
     
  • 3.51, Онаним (?), 07:59, 29/04/2020 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Причина номер раз. Пока что всякие "геодистрибуции" падают гораздо чаще и серьёзнее, чем докерки. Тот же гитхаб два раза за полмесяца валялся. А ещё попробуйте сравнить бюджеты "геодистрибуторов" и дебиана, и станет понятна вторая причина.

    Нет, за спофы тоже надо руки отрывать, но вот эти все инди-кубернетесы тоже идут лесом.

     
     
  • 4.52, Онаним (?), 08:00, 29/04/2020 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Фак.

    Пока что всякие "геодистрибуции" и докерки падают гораздо чаще и серьёзнее, чем классика.

    Fixed. Спросонья писать всякую х**ту - выходит вдвое большая х**та.

     
  • 3.54, нах. (?), 10:24, 29/04/2020 [^] [^^] [^^^] [ответить]  
  • –2 +/
    > Ну результаты работы трушной олдовой инфраструктуры с каноничным single point of failure

    ну честно-то говоря, не олдовая и за миллиард нефти тоже так вот умеет, вот, храню рядом с пробитым партбилетом:
    [   83.026903]  rport-2:0-8: blocked FC remote port time out: removing target and saving binding
    [   83.026908]  rport-1:0-10: blocked FC remote port time out: removing target and saving binding
    [  148.621499]  rport-2:0-0: blocked FC remote port time out: removing target and saving binding
    [  148.621568]  rport-1:0-0: blocked FC remote port time out: removing target and saving binding
    [  287.900229]  rport-1:0-11: blocked FC remote port time out: removing target and saving binding
    [  287.900298]  rport-2:0-1: blocked FC remote port time out: removing target and saving binding

    - херак, и ВСЕ линуксные серваки превратились в тыковку по причине отвала ВСЕХ дублированных-передублированных линков к СХД и мгновенному испарению из /sys всех sd? без вариантов воскрешения.
    Но это, если что - потому что линукс вот такое вот г-но. Потому что ни вмварь, ни винда - ничего подобного не заметили (а о работах такого рода все равно предупреждать, блжад, надо).

    А почему он г-но? А вот как раз потому, что у самих горе-разработчиков - г-но и палки, и мечты купить советское, значит отличное от хорошего. И подобные вещи они не то что не тестировали, а никогда даже не отлаживали.

    > - это все для хипстеров-смузихлебов. Трушно-свитерно - все посадить на один
    > storage array в одном DC.

    у них было целых два - packages вот не накрыло.

    У меня тоже было два - не помогло, у нас нет СТОЛЬКА деньгов чтобы всю-всю инфраструктуру дублировать. Предполагается, что при падении ядреной бомбы на основной DC, запасные админы поднимут нужное в запасном ручками.

     
     
  • 4.57, PnD (??), 11:47, 29/04/2020 [^] [^^] [^^^] [ответить]  
  • +/
    Через несколько минут после начала загрузки (из процитированного dmesg)?
    Больше похоже на обычную загрузку хоста с кучей FC через брокады.
    Вот тут:
    https://www.linuxquestions.org/questions/linux-server-73/blocked-fc-remote-por
    разбор откуда оно берётся.

    * Я верю что оно попадало, но хочу посмотреть релевантный лог. В моей практике валится например из-за трэшовой реализации rdac к (полу)дешёвым netapp-based. А все порты по таймауту — просто так не валятся.

     
     
  • 5.58, нах. (?), 12:08, 29/04/2020 [^] [^^] [^^^] [ответить]  
  • –1 +/
    > Через несколько минут после начала загрузки

    а ты думал, я его каждый день загружаю? Через несколько минут после прошлого ресета - опачки, отвалилось снова нахер, просто на сей раз удалось полюбоваться, а в тот и не на что было.

    > Больше похоже на обычную загрузку хоста с кучей FC через брокады.

    похоже, но не то же самое (там другое, там оно "ой ниушпела" пишет, а не путь отвалился и я на всяк случай вообще нихачю-нибуду работать сегодня - причем это реально ВСЕ какие были)

    > * Я верю что оно попадало, но хочу посмотреть релевантный лог. В

    это ж линукс, каких тебе релевантных логов c fcшки - скажи спасибо что так, а не просто повисло и непонятно, от чего.

    > моей практике валится например из-за трэшовой реализации rdac к (полу)дешёвым netapp-based.
    > А все порты по таймауту — просто так не валятся.

    а это и не порты отвалились, это пути через эти порты отвалились. А вот схерали оно эти пути месяц назад не перестроило на более прямые, как сделали (молча!) варя и винда - это у линукса своего спросите ;-)
    А у нас спрашивать не с кого - не для того 6ешплатное ставили, чтоб денег техподдержке платить.

    Да, причиной была совершенно нештатная операция, нехер так делать, но, повторяю - ентер-прайс грейд системы совершенно не расстроились и все восприняли как надо без ручных плясок с граблями.

     

  • 1.59, Аноним (59), 13:35, 29/04/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • +2 +/
    Дебиан: перезагрузка
     
  • 1.60, Аноним (-), 14:52, 29/04/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    А может кто зеркало сможет поднять? Или безопасность?
     
  • 1.63, Ананоним (?), 17:01, 29/04/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Я не понял! А где же технология BackDoor, тьфу, Intel AMT?
     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Спонсоры:
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2020 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру