The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]

Выпуск кластерной ФС Lustre 2.13

09.12.2019 07:00

Опубликован релиз кластерной файловой системы Lustre 2.13, используемой в большей части (~60%) крупнейших Linux-кластеров, содержащих десятки тысяч узлов. Масштабируемость на столь крупных системах достигается благодаря многокомпонентной архитектуре. Ключевыми компонентами Lustre являются серверы обработки и хранения метаданных (MDS), управляющие серверы (MGS), серверы хранения объектов (OSS), хранилище объектов (OST, поддерживается работа поверх ext4 и ZFS) и клиенты.

Основные новшества:

  • Реализован постоянный кэш на стороне клиента (Persistent Client Cache), позволяющий задействовать локальное хранилище, такое как NVMe или NVRAM, как часть глобального пространства имён ФС. Клиенты могут кэшировать данные, связанные с создаваемыми или существующими файлами, в локально примонтированной ФС с кэшем (например, в ext4). В процессе работы текущего клиента эти файлы обрабатываются локально со скоростью локальной ФС, но, в случае попытки обращения другого клиента, автоматически мигрируют в глобальную ФС.
  • В маршрутизаторах LNet реализовано автоматическое обнаружение маршрутов при использовании маршрутизации по нескольким путям через разные сетевые интерфейсы (Multi-Rail Routing) и повышена надёжность работы конфигураций с узлами, имеющими несколько сетевых интерфейсов.
  • Добавлен режим "overstriping", при котором в одном хранилище объектов (OST) может содержаться несколько копий stripe-блоков для одного файла, что позволяет нескольким клиентам одновременно производить операции совместной записи в файл без ожидания освобождения блокировки.
  • Появилась поддержка саморасширяющихся схем размещения файлов (Self-Extending Layouts), увеличивающих гибкость применения режима PFL (Progressive File Layouts) в разнородных ФС. Например, когда ФС включает небольшие пулы хранилищ на базе быстрых Flash-накопителей и большие дисковые пулы, предложенная возможность позволяет в первую очередь осуществлять запись в быстрые хранилища, а после того как место закончится автоматически переключиться на медленные дисковые пулы.


  1. Главная ссылка к новости (https://www.mail-archive.com/l...)
  2. OpenNews: Выпуск кластерной ФС Lustre 2.12
  3. OpenNews: Исключение файловой системы Lustre из ядра Linux
  4. OpenNews: Выпуск распределенной файловой системы GlusterFS 3.7
  5. OpenNews: Обновление кластерной файловой системы LizardFS 3.13.0-rc2
  6. OpenNews: Опубликована 54 редакция списка самых высокопроизводительных суперкомпьютеров
Лицензия: CC BY 3.0
Короткая ссылка: https://opennet.ru/51994-lustre
Ключевые слова: lustre, cluster
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (50) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, Аноним (1), 09:44, 09/12/2019 [ответить] [﹢﹢﹢] [ · · · ]  
  • –5 +/
    у меня есть кластер из стационарного компютера и ноутбука. Как задействоват lustre FS
     
     
  • 2.4, Аноним (4), 10:02, 09/12/2019 [^] [^^] [^^^] [ответить]  
  • +7 +/
    оно тебе не надо
     
  • 2.36, Michael Shigorin (ok), 20:15, 09/12/2019 [^] [^^] [^^^] [ответить]  
  • +4 +/
    Сперва придётся купить infiniband-карты на оба узла и раз уж пошла такая пьянка -- очевидно, infiniband-коммутатор тоже понадобится. </>
     
     
  • 3.45, пацик на моцике (?), 08:08, 10/12/2019 [^] [^^] [^^^] [ответить]  
  • –2 +/
    Ой сострил, ну просто молодец, Петросян нервно курит в сторонке.
     
  • 3.48, anonymous (??), 12:21, 11/12/2019 [^] [^^] [^^^] [ответить]  
  • +/
    Можно соединять напрямую (без коммутатора)
     

  • 1.2, Ю.Т. (?), 10:00, 09/12/2019 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Сводки Top500.org не содержат указаний на типы используемых файловых систем. Ссылка на этот ресурс неуместна.
     
     
  • 2.5, Аноним (4), 10:06, 09/12/2019 [^] [^^] [^^^] [ответить]  
  • +/
    Поддерживаю. Модераторы, плз, отредактируйте новость, так как ссылка на Top500.org вставлена произвольно и без всяких оснований.
     
     
  • 3.10, Штунц (?), 11:17, 09/12/2019 [^] [^^] [^^^] [ответить]  
  • +/
    А если бы не было ссылки, что бы спросил? Типа, о каких таких "крупнейших Linux-кластерах" идет речь и почему нет ссылки.
     
     
  • 4.16, Аноним (16), 11:30, 09/12/2019 [^] [^^] [^^^] [ответить]  
  • +6 +/
    Всё ттх относящееся к Lustre, находится на сайте Lustre - оттуда и надо брать соответствующую информацию. А бубнёж и левую дезинформацию следует из новости удалить, так как она отношения к топику никакого не имеет. На топ500 не детализируют фс, а значит в новости написана произвольная отсебятна. Всё это довольно очевидно, но, видимо, господин Штунц встал сегодня не с той ноги или решил заняться демагогией и поводить вилами по воде.
     
     
  • 5.22, Аноним (22), 12:13, 09/12/2019 [^] [^^] [^^^] [ответить]  
  • +/
    можно еще погуглить Cray XC + Sonecsion + Lustre
     
  • 2.6, пох. (?), 10:09, 09/12/2019 [^] [^^] [^^^] [ответить]  
  • –2 +/
    к тому же это _вычислительные_ кластеры, а люстра совершенно не для них придумана

     
     
  • 3.9, Ю.Т. (?), 10:32, 09/12/2019 [^] [^^] [^^^] [ответить]  
  • –1 +/
    > к тому же это _вычислительные_ кластеры, а люстра совершенно не для них
    > придумана

    Интегрированная ФС и вычислительному кластеру не помешала бы. А то туда прогресс, сюда прогресс, а на узлах-то NFS.

     
     
  • 4.14, Аноним (22), 11:23, 09/12/2019 [^] [^^] [^^^] [ответить]  
  • –1 +/
    у вас какой-то допопотопный кластер. вот Cray XC поставляется с Lustre, IBM - с GPFS.. а что бы с NFS.. можно - но типа Васяна на коленки из 20 узлов. Или как вот с железкой которую разработали под новосибом.
     
     
  • 5.18, Ю.Т. (?), 11:59, 09/12/2019 [^] [^^] [^^^] [ответить]  
  • –1 +/
    > у вас какой-то допопотопный кластер. вот Cray XC поставляется с Lustre, IBM
    > - с GPFS.. а что бы с NFS.. можно - но
    > типа Васяна на коленки из 20 узлов. Или как вот с
    > железкой которую разработали под новосибом.

    Да мы вообще лохи, фули. И выделенной электростанции, что питать Cray или IBM, у нас тоже нет.
    Ну, и как сбрасывать большие файлы с модулей?

     
     
  • 6.20, Аноним (22), 12:09, 09/12/2019 [^] [^^] [^^^] [ответить]  
  • +1 +/
    на 8" дискетах ? :) или лучше на пленках как в 1046 было :)
     
  • 4.17, пох. (?), 11:33, 09/12/2019 [^] [^^] [^^^] [ответить]  
  • –1 +/
    просто вычислительному кластеру - совсем необязательно нужна такая большая, даже если он из top500.

    хотя, конечно, nfs там окажется - навряд ли.

     
     
  • 5.38, Michael Shigorin (ok), 20:16, 09/12/2019 [^] [^^] [^^^] [ответить]  
  • +/
    Петабайты и тыщи узлов, однако.  Что туда совать-то предложите?  PanFS ещё видал, да.
     
     
  • 6.49, Аноним (49), 18:22, 11/12/2019 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Как мало ты Миша видел... Топ1 пользует https://www.ibm.com/support/knowledgecenter/en/SSFKCN_4.1.0/com.ibm.cluster.gp

    ибо IBM.

     
     
  • 7.50, Michael Shigorin (ok), 18:32, 11/12/2019 [^] [^^] [^^^] [ответить]  
  • +/
    > Как мало ты Миша видел...

    Так я и не претендую :-)  Бимерская установка в соседнем зале стояла (поди, там же и стоит), но её и видеть особо не хотелось.

    Кстати, да -- там в трёх соседних машзалах три разные кластерные файловые системы применялись, получается.

    PS: хотя вряд ли здесь так уж много тех, кто видал *исходники* panfs.

     
  • 3.37, Michael Shigorin (ok), 20:15, 09/12/2019 [^] [^^] [^^^] [ответить]  
  • +/
    Точно-точно не для них?
     
  • 2.11, Аноним (22), 11:19, 09/12/2019 [^] [^^] [^^^] [ответить]  
  • +3 +/
    везде где есть слово Cray, можете читать Lustre.

    IBM толкает свою GPFS. остальное - где что, Dell / EMC  - это Lustre

     

  • 1.3, Ю.Т. (?), 10:01, 09/12/2019 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    ...вообще, откуда дровишки насчёт "большей части систем"?
     
     
  • 2.7, пох. (?), 10:10, 09/12/2019 [^] [^^] [^^^] [ответить]  
  • –4 +/
    если не путать системы с петабайтными хламохранилищами с top500 выислительных -то, наверное, правильно - "а что, еще кто-то есть?"

    И принадлежат все эти системы - гуглю, гуглю, и, еще  вот - гуглю, например.

     
     
  • 3.8, Ю.Т. (?), 10:30, 09/12/2019 [^] [^^] [^^^] [ответить]  
  • –1 +/
    > если не путать системы с петабайтными хламохранилищами с top500 выислительных -то, наверное,
    > правильно - "а что, еще кто-то есть?"
    > И принадлежат все эти системы - гуглю, гуглю, и, еще  вот
    > - гуглю, например.

    Так ведь, кажется, у гугля свой внук^W googleFS есть?

     
  • 3.13, Аноним (22), 11:22, 09/12/2019 [^] [^^] [^^^] [ответить]  
  • +1 +/
    у гугла поменьше чем в каком нить ORNL..
    ну и по факту эти Top500 это смесь люстры + GPFS и всяких object storage - где-то HDF5 - где-то NVMe over fabric..
     
  • 3.27, Аноним (27), 15:47, 09/12/2019 [^] [^^] [^^^] [ответить]  
  • +/
    >>если не путать системы с петабайтными хламохранилищами с top500 выислительных -то, наверное, правильно - "а что, еще кто-то есть?"
    >И принадлежат все эти системы - гуглю, гуглю, и, еще  вот - гуглю, например.

    Вы говорите, говорите ... (c)

     
  • 2.12, Аноним (22), 11:20, 09/12/2019 [^] [^^] [^^^] [ответить]  
  • +2 +/
    от тех кто эти системы из Top500 руками шупает и cапортит.

    Видим слова Cray, DDN, Dell, HPe, EMC - читаем слово Lustre.
    видим слова IBM - читаем GPFS.

     
     
  • 3.28, pofigist (?), 16:25, 09/12/2019 [^] [^^] [^^^] [ответить]  
  • +/
    Видим enterprise storage - читаем GlusterFS
     
     
  • 4.29, пох. (?), 18:16, 09/12/2019 [^] [^^] [^^^] [ответить]  
  • +/
    А-А-А-А-А-А-А!
     
  • 4.31, Аноним (22), 18:38, 09/12/2019 [^] [^^] [^^^] [ответить]  
  • +1 +/
    вот сколько щупал грязными лапами машины из Top500 - не на одной не видел GlusterFS.
    Даже у крупных ентерпрайс клиентов - glusterFS не пахнет.
    Им пахнет только там где пытались играть в виртуалочки.. и все.
     
     
  • 5.35, Pofigis (?), 20:10, 09/12/2019 [^] [^^] [^^^] [ответить]  
  • +/
    Top500 - ни разу не enterprise. Это штучные, заказные изделия, а типичный enterprise это типовое, стандартное решение. Крупный enterprise, типа РЖД, ну или хотя бы гугля - это тоже заказные решения и свои даже не отделы, а целые департаменты разработчиков, там ИТ-отдел по кол-ву сотрудников не влезает в целую фирма из "среднего" бизнеса. :)
    glusterFS, OpenFlow и прочие SDN это да - там где "играются в виртуалочки". с количеством нод в несколько сотен минимум, парой дестяков СХД и геозащитой.
     
     
  • 6.42, Аноним (22), 07:15, 10/12/2019 [^] [^^] [^^^] [ответить]  
  • +/
    Top500 это нефига не штучные изделия.
    Это обычная линейка NetAPP, DDN, Seagate (теперь Cray) - которая может использоваться и там и там..
    Эти же хранилки стоят в куче контор поменьше.. сильно меньше.
     
     
  • 7.44, Pofigis (?), 07:47, 10/12/2019 [^] [^^] [^^^] [ответить]  
  • +/
    То что изделие собранно из стандартных кирпичиков не отменяет его штучности.
     
     
  • 8.46, Аноним (22), 16:35, 10/12/2019 [^] [^^] [^^^] [ответить]  
  • +/
    ох поверке тому кто эту колбасу видит постоянно Нету там штучности особенно в... текст свёрнут, показать
     
  • 5.40, пох. (?), 21:53, 09/12/2019 [^] [^^] [^^^] [ответить]  
  • +/
    > вот сколько щупал грязными лапами машины из Top500

    он же вам про энтерпрайз - которые ип...ся за деньги, а не устраивают шоу "сегодня трахнул слона, завтра кита, послезавтра иду трахать Левиафана"

    > Даже у крупных ентерпрайс клиентов - glusterFS не пахнет.
    > Им пахнет только там где пытались играть в виртуалочки.. и все.

    с какого боку он к виртуалочкам? Он для них совершенно непригоден, поскольку все варианты "distributed" в современных версиях имеют пометочку "MapReduce usage only", а в несовременных - "осторожно, мины!"

    но ссыкотно, да. Я локации тех ентер-прайс клиентов, которые купили RHGS (а пуще того тех которые не купили, а схватили 6ешплатное) как раз и пытаюсь осторожно выяснить, дабы обходить десятой дорогой.

     
     
  • 6.43, Аноним (22), 07:43, 10/12/2019 [^] [^^] [^^^] [ответить]  
  • +/
    Да хоть про какой Весь этот top500 сделан из типовых решений, которые тупо машт... большой текст свёрнут, показать
     
     
  • 7.52, Michael Shigorin (ok), 15:18, 11/01/2021 [^] [^^] [^^^] [ответить]  
  • +/
    > Весь этот top500 сделан из типовых решений, которые тупо маштабируются количеством.

    Мне кажется, скорее "из типовых решений двух-трёхлетней перспективы для ДЦ".  Т.е. обкатка как раз на HPC, затем "сползает" в ынтерпрайзъ.

     
  • 3.51, Michael Shigorin (ok), 14:24, 11/01/2021 [^] [^^] [^^^] [ответить]  
  • +/
    > от тех кто эти системы из Top500 руками шупает и cапортит.
    > Видим слова Cray, DDN, Dell, HPe, EMC - читаем слово Lustre.

    Тут, кстати, одни знакомые интересовались люстроводами -- если вдруг Вы прочтёте это письмо и интересно, маякните мне на mike@altlinux.org, пожалуйста.

     
  • 2.15, Аноним (15), 11:23, 09/12/2019 [^] [^^] [^^^] [ответить]  
  • +1 +/
    https://01.org/lustre-software

    Lustre is the most widely-used file system in supercomputing, powering over 60 percent of the TOP100 supercomputing sites worldwide.


    http://wiki.lustre.org/images/6/64/LustreArchitecture-v4.pdf

    The majority of the top 100 fastest computers, as measured by top500.org, use Lustre for their high performance, scalable storage.


    В прошлом году пвытались сделать вариант Top500 по производительности ввода/вывода, но инициатива заглохла https://www.vi4io.org/io500/start

     
     
  • 3.19, Ю.Т. (?), 12:01, 09/12/2019 [^] [^^] [^^^] [ответить]  
  • +/
    > https://01.org/lustre-software

    ...ссылается на top500.org "вообще"

    > http://wiki.lustre.org/images/6/64/LustreArchitecture-v4.pdf

    ...то же.

    Я как бы не против этого изделия, но хотелось бы видеть более конкретные сведения.

    Потому что, когда я вижу слова IBM или Dell, я читаю IBM или Dell, а вот: "when you assume, you're making an ass both of you and me".

     
  • 3.21, Аноним (22), 12:10, 09/12/2019 [^] [^^] [^^^] [ответить]  
  • +/
    IO500 сейчас цветет и пахнет.
     

  • 1.23, Аноним (23), 12:20, 09/12/2019 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    как оно по сравнению с ceph?
     
     
  • 2.25, Всем Анонимам Аноним (?), 14:28, 09/12/2019 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Честно скажу, Lustre не щупал, чисто по архитектуре.
    Lustre нужно тем, у кого очень много storage я так понимаю и у кого много денег. Там куча компонент и каждая не дай бог чтобы упала, должно быть все 10 раз зарезервировано.
    Ceph работает немного по-другому, там изначально object storage, желательно полностью дисками управлять. И дизайн такой, что не важно качество железа, не нужно чтобы можно было процы заменять вживую и т.п. Все распределено и падающий сервер - это не исключительная ситуация. Естественно, будут небольшие проседания если что-то отвалится, но в общем все живучее.
    Т.е. архитектура ceph не требует гиперживучести от железа, так и дает возможность легко делать upgrade-ы и проводить работы. Да и компонентов не много, можно совмещать все на тех же серверах, где хранение идет. Меньше исключений - проще и дешевле обслуживание.
     
     
  • 3.26, Аноним (22), 15:42, 09/12/2019 [^] [^^] [^^^] [ответить]  
  • +3 +/
    Не надо вводить в заблуждение.

    >  Там куча компонент и каждая не дай бог чтобы упала, должно быть все 10 раз зарезервировано.

    там 2 компоненты - MDT / OST. На первом - метаданные - втором данные. для резервирования достаточно простой корзины с jbod -  которая доступна с двух контролеров. Совмещать из можно даже на одном сервере.

    Основная разница это в хранении.

    Если у вас очень много денег - вы можете поставить несколько сторожей с однаковым объемом для зеркалирования в ceph - то у вас будет защита данных.
    Так как в lustre mirror - это вещь очень опциональная - за защиту данных отвечает локальный рейд + сетевое recovery.

    При этом по прозводительности ceph по меньше.. по меньше..

     
     
  • 4.30, пох. (?), 18:21, 09/12/2019 [^] [^^] [^^^] [ответить]  
  • –1 +/
    > там 2 компоненты - MDT / OST

    А на картинке в статейке - четыре (роутер, внезапно, тоже компонент, и тоже нужно резервировать) не считая собственно OST (в роли какового вроде бы по сей день обычные hw raid, да?). Мне кажется, кто-то хочет нас обмануть?

     
     
  • 5.33, Аноним (22), 18:41, 09/12/2019 [^] [^^] [^^^] [ответить]  
  • +2 +/
    вы старые картинки не смотрите..

    роутер нужен для конвертации интерфейсов - если у вас один тип сети - то вам это не надо.

    MSG + MDT - в одной компоненте - это штатный сетап.. вот и получается что у вас 2 типа компонент.

    >по сей день обычные hw raid,

    какой рейд - вы чего? JBOD за уши хватает.

     
     
  • 6.34, пох. (?), 19:57, 09/12/2019 [^] [^^] [^^^] [ответить]  
  • –1 +/
    > какой рейд - вы чего? JBOD за уши хватает.

    а резервирование данных-то в этом случае кто делать будет? Нам же сказали что люстриный mirror - неправильно, мы и поверили.

    Попробовать собрать, что-ли, пока есть на чем... хотя толку от линукс-онли хранилища...

     
     
  • 7.39, Аноним (22), 21:05, 09/12/2019 [^] [^^] [^^^] [ответить]  
  • +2 +/
    dm :) или md в ядре. Один фик это быстрее чем нынче аппаратные рейды.


    PS. если кто-то сильно хочет - может поискать старую версию Lustre работающую через FUSE. работало даже на маке.

     

  • 1.41, _dz (?), 02:59, 10/12/2019 [ответить] [﹢﹢﹢] [ · · · ]  
  • +3 +/
    Интересно, как там POHMELFS/elliptics поживает?.. Когда-то автор целился в конкуренты люстре.
     
     
  • 2.47, Аноним (22), 16:38, 10/12/2019 [^] [^^] [^^^] [ответить]  
  • +/
    > Интересно, как там POHMELFS/elliptics поживает?.. Когда-то автор целился в конкуренты
    > люстре.

    А никак. он в конкуренты не целился абсолютно. хотя бы тем что i_mutex у него глобальный - а значит запись с двух клиентов в один файл не возможна в принципе. Он сам об этом говорил и сказал что менять эту логику не собирается.


     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2024 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру