Выпуск кластерной ФС Lustre 2.17

31.12.2025 11:05 (MSK)

Опубликован релиз кластерной файловой системы Lustre 2.17, используемой в большей части крупнейших Linux-кластеров, содержащих десятки тысяч узлов. Ключевыми компонентами Lustre являются серверы обработки и хранения метаданных (MDS), управляющие серверы (MGS), серверы хранения объектов (OSS), хранилище объектов (OST, поддерживается работа поверх ext4 и ZFS) и клиенты. Код проекта распространяется под лицензией GPLv2.

Основные новшества:

Задействован по умолчанию гибридный механизм оптимизации производительности ввода/вывода, автоматически применяющий буферизованный или прямой режим ввода/вывода в зависимости от характера нагрузки и размера передаваемых данных.
Добавлена поддержка динамического конфигурирования движка Nodemap, отвечающего за маппинг идентификаторов пользователей (UID/GID) в "multi-tenancy" конфигурацих, в которых разные группы клиентов имеют доступ к ФС.
В системе динамической настройки LNet NID (LNet Network Identifier) реализована корректная обработка попыток регистрации на сервере более 32 NID-идентификаторов (ранее подобная ситуация приводила к сбою, а теперь NID сверх лимита будут игнорироваться).
Обеспечена поддержка сервера для пакета с ядром из состава RHEL 9.7 (5.14.0-611.13.1.el9_7), а клиентов для немодифицированных ядер RHEL 9.7 (5.14.0-611.13.1.el9_7), RHEL 10.1 (6.12.0-124.20.1.el10_1), SLES15 SP7 (6.4.0-150700.53.22.1) и Ubuntu 24.04 (6.8.0-35).

исправить +16 +/–

Лицензия: CC BY 3.0

Короткая ссылка: https://opennet.ru/64533-lustre

Ключевые слова: lustre, cluster

При перепечатке указание ссылки на opennet.ru обязательно

Обсуждение (37)

1.2, aname (ok), 11:47, 31/12/2025 [ответить] [﹢﹢﹢] [ · · · ]	–11 +/–
Непонятно, это лучше BTRFS, или нет?

2.8, Аноним (8), 13:28, 31/12/2025 [^] [^^] [^^^] [ответить]	+1 +/–
Это другое. Она надстройка над обычными ФС.

2.10, faa (?), 14:20, 31/12/2025 [^] [^^] [^^^] [ответить]	+/–
Это что-то типа NFS, только круче.

2.12, Аноним (12), 14:25, 31/12/2025 [^] [^^] [^^^] [ответить]	–3 +/–
ZFS Ван лав

3.23, Аноним (23), 21:30, 31/12/2025 [^] [^^] [^^^] [ответить]	+1 +/–
Архаика...

1.4, Аноним (4), 11:55, 31/12/2025 [ответить] [﹢﹢﹢] [ · · · ]	–1 +/–
Непонятно а как это на локалхосте поднять...

2.5, Фонтимос (?), 12:47, 31/12/2025 [^] [^^] [^^^] [ответить]	+9 +/–
Если непонятно, значит не нужно

2.9, Аноним (8), 13:29, 31/12/2025 [^] [^^] [^^^] [ответить]	+2 +/–
Наделать кучу виртуалок и над ними поднять.

3.19, Аноним (19), 19:42, 31/12/2025 [^] [^^] [^^^] [ответить]	+/–
и что будет, если одна, или несколько виртуалок будут загашены\выйдут из строя?

4.21, Аноним (21), 19:58, 31/12/2025 [^] [^^] [^^^] [ответить]	+/–
Итог будет зависеть от того, как Вы настроите репликацию в Lustre.

2.24, kusb (?), 22:23, 31/12/2025 [^] [^^] [^^^] [ответить]	+/–
Может быть это нужно только если у тебя в квартире много компьютеров и ты что-то считаешь на них.

3.25, kusb (?), 22:23, 31/12/2025 [^] [^^] [^^^] [ответить]	+1 +/–
Например облачный кластер на балконе и несколько оптических проводочков идёт к ним.

4.28, Аноним (28), 00:23, 01/01/2026 [^] [^^] [^^^] [ответить]	+/–
Хранители рутрекера и держатели кластеров редких торрентами поддерживают.

4.34, Аноним (34), 15:18, 01/01/2026 [^] [^^] [^^^] [ответить]	+/–
10гб/с коммутатор на алике стоит меньше 10 000 рублей, стоил покрайней мере год назад, работает и выдает заявленную скорость. Так что соорудить собственное облачко не сложно и не дорого

5.50, Я (??), 18:13, 02/01/2026 [^] [^^] [^^^] [ответить]	+/–
Я смотрю, это просто поражение мозга какое-то писать разлельно "не" там, где это не нужно. Неужели самому не видно, что в данном случае пишется "несложно" и "недорого"? Или реально мозг поражён чем-то?

2.32, torvn77 (ok), 13:50, 01/01/2026 [^] [^^] [^^^] [ответить]	+/–
>Непонятно а как это на локалхосте поднять... Это имеет смысл только если тебе надо слить в один накопитель несколько накопителей на разных хостах и их так много что тебе их никак не собрать на одном сервере.

2.38, Аноним (38), 22:43, 01/01/2026 [^] [^^] [^^^] [ответить]	+/–
dnf install lustre-tests cd /usr/lib64/lustre/tests bash llmount.sh

1.7, chemistmail (ok), 12:54, 31/12/2025 [ответить] [﹢﹢﹢] [ · · · ]

+/–

Какой к хренам раст, lustre fs уже работала когда раста даже в планах не было....

Какой нафиг btrfs, это кластерная система заточенная под грид вычисления, там где нужна низкая латентность...

Легко, но нафиг не надо.

По сути штука специфичная но для тех целей для которых она разрабатывалась весьма не плоха. Лет 20 назад использовал, петабайтов не было, но грузовик жестких дисков был заюзан.

1.11, faa (?), 14:21, 31/12/2025 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Lustre еще используется на суперкомпьютерах.

1.14, morphe (?), 14:40, 31/12/2025 [ответить] [﹢﹢﹢] [ · · · ]	+3 +/–
Архитектурно выглядит очень похоже на ceph, но в чём преимущества? Я так понял блочное хранилище внутреннее нельзя использовать отдельно от FS, в то время как в ceph cephfs это лишь надстройка

2.22, daemontux (?), 20:03, 31/12/2025 [^] [^^] [^^^] [ответить]	+1 +/–
Поддерживаю этого оратора, тоже хотелось бы понять +- в чем разница и почему бы на кластерах ceph не юзать.

3.29, none (??), 11:27, 01/01/2026 [^] [^^] [^^^] [ответить]	+/–
Короткий ответ Ceph не для этого был придуман Заранее извинияюсь за сильное уп... большой текст свёрнут, показать

4.36, Аноним (34), 15:50, 01/01/2026 [^] [^^] [^^^] [ответить]

+/–

> Как ребалансировка Ceph повлияет на производительность? Вы готовы ждать пока она закончится?

Можно включить, можно отключить, можно управлять кол-вом реплик, считай кол-м серверов отключенных на обслуживание, к тому же сеф работает в пространстве пользователя и любой его процесс может быть тупо убит, в отличии от ядерных процессов с которыми сделать нельзя ничего, кроме как ребутать всю ноду.

Честное слово не представляю что за софт такой который работает на кластере, но требует общую фс и локальный доступ к файлам, звучит какбудто ктото сильно сьэкономил на софте и выдал (родил) эдакого инвалида, с ручками, но без ножек.

В современном мире, в современной мете программирования, все должно жить в контейнерах, каждый из которых может быть отдельным миникластером с собственными очередями и нодами, прекрасно понимаю что в докер можно запихать далеко не все, прекрасно понимаю что накладные расходы могут быть чудовищными, особенно если поднимают это люди не оченьто шарящие...но так будет, да уже есть...

найти колкового токаря, который на старом советском станке выточит детель с нужной точностью не проблема, но вот найти толпу таких токарей, которые выточат сотни тысяч деталей с той же точностью невозможно, и выход один, менять советские станки на чпу, чтобы любой школоло мог пару кнопок нажать и получить результат, конечно такой станок будет дороже и медленнее, наверное, но это те самые накладные расходы и на дистанции оно отобьется по денгам и рискам чем платить элитным сотрудникам которые знают магию вне хогвардса как из ржавого ведра и линейки ...

5.37, none (??), 17:33, 01/01/2026 [^] [^^] [^^^] [ответить]

+/–

Извините, повторюсь: Ceph не для этого был придуман.

Именно то, что ceph работает в пространстве пользователя - это большая потеря производительности. Вы пытаетесь применить "свой молоток" не к тем "гвоздям".

Это не маленький B2C бизнес. В большинстве случаев - это даже не бизнес, а исследования. Сравнение с токарем, на мой взгляд, не очень подходит. Скорее таки Ceph тут будет выглядеть "садовой тележкой" в том месте, где нужны "карьерные самосвалы".

6.46, Аноним (34), 23:22, 01/01/2026 [^] [^^] [^^^] [ответить]	+/–
не для того, но заявления о том что какаято там фс может сотни тысяч петабайт, э... большой текст свёрнут, показать

4.41, Аноним (38), 22:48, 01/01/2026 [^] [^^] [^^^] [ответить]	+/–
>Если вы решите выбрать Ceph, то вам никто не может запретить, но между "бакетами ceph" и файловой структурой будет стоять RadosGW, после чего вам понадобится один или несколько NFS Ganesha, который работает в пространстве пользователя, со всеми вытекающими накладными расходами и вносимыми задержками. а так же отсутсвием когерентности кешей - как у nfs серверов, а уж тем более nfs клиентов.

4.42, morphe (?), 23:10, 01/01/2026 [^] [^^] [^^^] [ответить]

+/–

> Если вы решите выбрать Ceph, то вам никто не может запретить, но между "бакетами ceph" и файловой структурой будет стоять RadosGW, после чего вам понадобится один или несколько NFS Ganesha, который работает в пространстве пользователя, со всеми вытекающими накладными расходами и вносимыми задержками.

Речь шла про CephFS, RadosGW это S3 интерфейс для ceph, и NFS я тут вообще не понял каким боком, потому что RadosGW это S3, а не NFS

Оно далеко не так топорно работает как ты описал, в CephFS у тебя есть сервера метаданных MDS, и сервера дисков (блочное хранилище rados) OSD

Клиенту нужно стучать в MDS для получения информации о структуре ФС, а для изменения файлов он уже может стучать напрямую во все OSD согласно CRUSH карте, тут нет никакой централизации, промежуточных серверов, и уж тем более NFS

5.43, morphe (?), 23:14, 01/01/2026 [^] [^^] [^^^] [ответить]	+/–
> Речь шла про CephFS, RadosGW это S3 интерфейс для ceph, и NFS > я тут вообще не понял каким боком, потому что RadosGW это > S3, а не NFS Окей, пардон, надо было загуглить, RadosGW действительно имеет NFS интерфейс, однако это точно не то что рекомендуется кому-либо использовать, судя по всему это просто встроенный адаптер наподобие S3-FUSE, лол

5.48, morphe (?), 23:41, 01/01/2026 [^] [^^] [^^^] [ответить]	+/–
Если коротко - то CephFS работает именно так, как ты описал работу люстры. Однако клиент CephFS присутствует в mainline ядре, а клиент люстры - out-of-tree модуль

4.44, morphe (?), 23:18, 01/01/2026 [^] [^^] [^^^] [ответить]

+/–

> Как ребалансировка Ceph повлияет на производительность? Вы готовы ждать пока она закончится?

Примерно никак, Ceph очень слабо централизован, посмотри на архитектуру CRUSH/OSD что там используется для объектного хранилища, и как устроены сервера MDS для CephFS

Только эти сервисы нужны для cephfs клиентов, при перебалансировке нагружаются только отдельные OSD, и ceph достаточно хорошо нагрузку по ним распределяет чтобы не было такого что все реплики всех объектов оказались плохо доступны

4.49, morphe (?), 00:03, 02/01/2026 [^] [^^] [^^^] [ответить]

+/–

> - NFS Ganesha запрос получил.
> - Дёрнул RadosGW (для простоты они на одной машине)

Посмотрел вообще что за зверь такой этот NFS в RadosGW - и как я и подумал, это встроенный адаптер S3-FUSE, чтобы на клиенте не ставить FUSE прослойку, а смонтировать вместо неё NFS сервер

NFS сервер тут однако не внешний процесс, а просто ещё один протокол предоставляемый RadosGW, сервер ganesha in-process, никого ему дёргать не надо

> Each NFS RGW instance is an NFS-Ganesha server instance embedding a full Ceph RGW instance.
> Therefore, the RGW NFS configuration includes Ceph and Ceph Object Gateway-specific configuration in a local ceph.conf, as well as NFS-Ganesha-specific configuration in the NFS-Ganesha config file, ganesha.conf.

Что собственно и делает его лучше чем внешний S3-FUSE

3.30, none (??), 11:44, 01/01/2026 [^] [^^] [^^^] [ответить]	+/–
Рассказывать про запись данных на ceph не буду, но там появятся такие милые сердцу ожидания, пока данные лягут в две из трёх реплик (мы же помним, что терять данные нельзя и храним 3 реплики). Вот кстати, отдельная задачка - посчитать стоимость хранения за минимальный "строительный блок" для расширения на 100Tb, с учётом всех OST, RadosGW, серверов NFS и тремя репликами данных.

4.45, morphe (?), 23:21, 01/01/2026 [^] [^^] [^^^] [ответить]	+/–
Если ты доверяешь своему железу - то можешь не ждать двух реплик, это ж не то чтобы что-то необычное, неужели lustre по дефолту позволяет потерять единственную актуальную реплику?

2.39, Аноним (38), 22:46, 01/01/2026 [^] [^^] [^^^] [ответить]	+/–
не похоже на ceph от слова совсем. самое простое - разный механизм востановления после сбоя. ceph надеется на сетевые реплики. lustre работает как сетевая журналируемая fs и надеется что backend - уже с рейдом. Остальное уже вопросы стабильности и маштабируемости (не слышал что бы ceph работал с 15-50к клиентов)

3.47, morphe (?), 23:27, 01/01/2026 [^] [^^] [^^^] [ответить]

–1 +/–

> не похоже на ceph от слова совсем.
> самое простое - разный механизм востановления после сбоя.
> ceph надеется на сетевые реплики.
> lustre работает как сетевая журналируемая fs и надеется что backend - уже
> с рейдом.

Мне кажется ты и другой комментатор тоже про NFS и RadosGW говорите, а не про CephFS

У CephFS файловая система (реализованная на MDS) тоже журналируемая (метаданные), а сами данные бечатся в OSD, который либо работает с голым диском и имеет WAL (bluestore), либо тоже файловая система с опциональным журналированием (filestore)

Короче никто не надеется на сетевые реплики, но по дефолту обычно всегда стоит ожидание что несколько реплик доступны, это да.

2.40, Аноним (38), 22:46, 01/01/2026 [^] [^^] [^^^] [ответить]	+/–
не похоже на ceph от слова совсем. самое простое - разный механизм восстановления после сбоя. ceph надеется на сетевые реплики. lustre работает как сетевая журналируемая fs и надеется что backend - уже с рейдом. Остальное уже вопросы стабильности и маштабируемости (не слышал что бы ceph работал с 15-50к клиентов)

игнорирование участников | лог модерирования

Добавить комментарий

Текст: