The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]

Выпуск кластерной ФС Lustre 2.8

28.03.2016 09:22

Состоялся релиз кластерной файловой системы Lustre 2.8, используемой в большей части крупнейших Linux-кластеров, содержащих десятки тысяч узлов. Масштабируемость на столь крупных системах достигается благодаря многокомпонентной архитектуре. Ключевыми компонентами Lustre являются серверы обработки и хранения метаданных (MDS, MDT), управляющие серверы (MGT, MGS), серверы хранения объектов (OSS), серверы размещения объектов (OST, поддерживается работа поверх ext4 и ZFS) и клиенты (код клиента входит в состав штатного ядра Linux).

В новом выпуске завершена работа по обеспечению возможности задействования нескольких серверов хранения метаданных MDT (Metadata Targets), выполненная при поддержке организации OpenSFS, основанной группой производителей кластерных систем, заинтересованных в развитии и независимой поддержке файловой системы Lustre. В частности, добавлена поддержка асинхронного подтверждения операций в распределённом пространстве имён (DNE, Distributed Namespace) с привлечением нескольких узлов MDT. Появилась поддержка функций удалённого переименования и удалённого управления жесткими ссылками.

Из других улучшений можно отметить поддержку SELinux в клиенте Lustre, улучшение производительности и эффективности выполнения четвёртой фазы проверки целостности ФС в утилите LFSCK, поддержку работы серверов и клиентов на системах с Red Hat Enterprise Linux 7.x, возможность выполнения клиентом операций множественного изменения метаданных из многопоточных приложений.

  1. Главная ссылка к новости (http://lists.lustre.org/piperm...)
  2. OpenNews: В ядро Linux 3.11 будет включена поддержка кластерной ФС Lustre
  3. OpenNews: Компания Xyratex выкупила у Oracle распределённую ФС Lustre
  4. OpenNews: Компания Whamcloud анонсировала создание независимого варианта ФС Lustre
  5. OpenNews: Приостановка активности Oracle, связанной с кластерной ФС Lustre
  6. OpenNews: Кластерная ФС Lustre будет работать поверх ZFS
Лицензия: CC BY 3.0
Короткая ссылка: https://opennet.ru/44115-lustre
Ключевые слова: lustre
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (26) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, Аноним (-), 10:00, 28/03/2016 [ответить] [﹢﹢﹢] [ · · · ]  
  • +3 +/
    Для хранения мелких файлов подходит?
     
     
  • 2.2, feem (?), 10:35, 28/03/2016 [^] [^^] [^^^] [ответить]  
  • +/
    Толсто
     
     
  • 3.15, Аноним (-), 15:56, 28/03/2016 [^] [^^] [^^^] [ответить]  
  • +/
    "толсто" устарело как и "баян"
     
  • 2.3, Аноним (-), 11:02, 28/03/2016 [^] [^^] [^^^] [ответить]  
  • +3 +/
    А у вас больше тысячи нод?
     
  • 2.4, Аноним (-), 11:25, 28/03/2016 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Звучит как "какой компьютер из TOP500 лучше всего подходит для сидения вконтактике?"
     
  • 2.5, sabakka (?), 12:09, 28/03/2016 [^] [^^] [^^^] [ответить]  
  • +/
    > Для хранения мелких файлов подходит?

    канешн, в all-flash конфигурации ;)

     
     
  • 3.13, Аноним (-), 15:18, 28/03/2016 [^] [^^] [^^^] [ответить]  
  • +1 +/
    в all flash? это по новой методичке от Интела ?:)
     

  • 1.6, Аноним (-), 12:18, 28/03/2016 [ответить] [﹢﹢﹢] [ · · · ]  
  • –3 +/
    Я почему спросил, например cephfs ещё сырая и для хранения мелких файлов не подходит, как и файлов вообще.
     
     
  • 2.7, feem (?), 12:31, 28/03/2016 [^] [^^] [^^^] [ответить]  
  • +/
    ceph то как раз из всех открытых кластерных систем одна из самых стабильных и более менее все хорошо с производительностью(хотя люстра конечно побыстрее будет). Очень много коммерческих решений сейчас на ней делают компании.
     
     
  • 3.8, Аноним (-), 12:46, 28/03/2016 [^] [^^] [^^^] [ответить]  
  • –1 +/
    suse коммерческие решения на btrfs продаёт, но почему-то пользоваться тем бртфсом дураков мало находится
     
     
  • 4.23, Аноним (-), 09:53, 30/03/2016 [^] [^^] [^^^] [ответить]  
  • +/
    > мало находится

    Благодаря фэйсбуку btrfsом пользуется вся планета.

     
  • 3.9, Аноним (-), 13:37, 28/03/2016 [^] [^^] [^^^] [ответить]  
  • +/
    я не про ceph, а cephfs - задача хранить множество мелких ts файлов для hls.
     
     
  • 4.17, feem (?), 16:16, 28/03/2016 [^] [^^] [^^^] [ответить]  
  • +/
    вы сами то поняли что написали
     
  • 2.10, Stax (ok), 14:20, 28/03/2016 [^] [^^] [^^^] [ответить]  
  • +/
    Пользуясь случаем, тоже спрошу у местных экспертов. Похожая задача, мелкие/средние файлы (от нуля байт до 20 мб, полный разброс); сотни миллионов, в день возникают десятки/сотни тысяч новых, все нужно считывать (+ регулярно считывать старые). Доступ на запись через REST API, на чтение крайне желательно через NFS, но на крайняк REST API покатит (особенности кэширования - файл обычно считывается несколько раз в течении короткого времени, кэширование NFS в ОС работает лучше, чем webdav+squid для кэширования). Файлы (в случае успешной запси) более никогда не модифицируются.

    Ну, типичные требования - чтобы непрерывно держало нагрузку без простоев, несколько реплик от потери данных, эффективная off-site репликация/бэкап (чтобы быстро понимало, какие изменения переслать, а-ля zfs send). Чудес производительности не требуется, типичная нагрузка сейчас 20-30 Мб/с (но практически постоянно). Требования корректности (ответить "на живых репликах объекта нет" в крайнем случае можно, вернуть объект с битыми данными нельзя).

    Пробовали cephfs (с раздачей по nfs), не понравилось, в первую очередь восстановление при проблемах с нодами/сетью. Много различных неприятных эффектов, пришлось отказаться. Желательно что-то такое, что даже при временном отделении нод друг от друга с последующим соединением не побьет данные и не потребует трудоемкого восстановления с простоем.

     
     
  • 3.14, le9i0nx (?), 15:49, 28/03/2016 [^] [^^] [^^^] [ответить]  
  • +/
    CEPH S3 как вариант
    http://docs.ceph.com/docs/master/radosgw/s3/
     
     
  • 4.16, Stax (ok), 16:09, 28/03/2016 [^] [^^] [^^^] [ответить]  
  • +/
    Гмм а он будет легче в плане восстановления?
    Сейчас уточнил, у нас был не cephfs, а ceph block device + xfs на нем + nfs на чтение (там, где писали была возможность подключить этот block device, а вот там, где читают - возможности нет).

    Еще желательно сжатие. Файлы сжимаются хорошо (zfs сейчас показывает коэффициент 2.44). ceph требует исключительно btrfs в качестве фс под ним для сжатия, так? Но btrfs это свои глюки - пробовали с ним, очень быстро пришлось поменять на xfs.

     
     
  • 5.18, name (??), 18:01, 28/03/2016 [^] [^^] [^^^] [ответить]  
  • +/
    Странно, в вашем случае именно RadosGW и нужен. использовать Ceph+RBD+xfs+nfs как-то странно

    про сжатие, что мешает сделать это на фронт-енде
    https://www.hastexo.com/resources/hints-and-kinks/hosting-website-radosgw/

     
  • 3.20, Лютый жабист (?), 06:20, 29/03/2016 [^] [^^] [^^^] [ответить]  
  • –1 +/
    А зачем для этой задачи ФС? Просто складывать в NOSQL (Cassandra самая лютая, но можно и MongoDB).
     
     
  • 4.22, Stax (ok), 15:10, 29/03/2016 [^] [^^] [^^^] [ответить]  
  • +/
    Эти слова бесконечно далеки от конечного решения. Во-первых, с Cassandra связываться не будем - под такую нагрузку внедрять подобный NoSQL можно только вместе с людьми, которые будут его поддерживать. Mongo тут вообще не в тему - она не соответствует исходным требованиям, если их внимательно прочесть.

    Есть Hadoop и Hbase, но в голом виде их использовать также нельзя. Во-первых хранить много мелких объектов раздельно как "файлы" на Hadoop нельзя, он для этого не предназначен. Нужно их объединять группами в архивы и прочее, там свои заморочки. Т.к. файлы должны размазываться равномерно, архивы нужно постоянно менять, могут выплыть заморочки. Мы плотно работаем с HBase и хорошо представляем, сколько неприятностей кроется, если идти по этому пути :) Решаемых, но время, время...

    В HBase класть так просто тоже не выйдет. Слишком неравномерный размер объектов, слишком большой разброс. См. https://www.quora.com/Is-HBase-appropriate-for-indexed-blob-storage-in-HDFS и еще https://issues.apache.org/jira/browse/HBASE-11339
    Hadoop/Hbase это такие штуки, которые могут начать себя КРАЙНЕ плохо вести, если с ними делать неправильные вещи. Поэтому делать что попало не стоит.

    Вообще какая-то прослойка над Hadoop - это вероятное решение, но пока неясно, какая именно и что проще внедрить.

    Решения с POSIX layer, при всем оверхеде, которые они несут, привлекательны тем, что строго разделяют проблемы самого хранения от проблем его использования. Т.к. с последним уже все отлажено, все проблемы, которые могут возникнуть - проблемы самого хранилища.

     
     
  • 5.26, Аноним (-), 12:47, 01/04/2016 [^] [^^] [^^^] [ответить]  
  • +/
    > с Cassandra связываться не будем

    т.е., scylladb тоже не катит?

     
  • 3.24, Аноним (-), 14:00, 30/03/2016 [^] [^^] [^^^] [ответить]  
  • +/
    мб, это http://leo-project.net/leofs/ ?
     
     
  • 4.25, Stax (ok), 22:26, 30/03/2016 [^] [^^] [^^^] [ответить]  
  • +/
    Любопытно :)
    Выглядит вкусно, eventual consistency, конечно, штука опасная, но в этом конкретном случае проблем не представляет.
    Спасибо, посмотрим.
     
     
  • 5.27, Аноним (-), 12:48, 01/04/2016 [^] [^^] [^^^] [ответить]  
  • +/
    Ещё glusterfs есть, но когда я его щупал (очень давно), это был лютый глючный пц, м.б. после перехода к rh его допилили до чего-то пристойного.


     

  • 1.12, Аноним (-), 15:17, 28/03/2016 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Хоть бы картинку новую вставили. А то так и позорятся с рисунком времен 1.4
     
     
  • 2.19, Anonymous7 (?), 20:39, 28/03/2016 [^] [^^] [^^^] [ответить]  
  • +/
    Мысленно дорисуй еще парочку MDS.
     

  • 1.21, Аноним (-), 12:00, 29/03/2016 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    > Из других улучшений можно отметить поддержку SELinux в клиенте Lustre

    Такое улучшение что клиент может поймать deadlock, причем Intel это не волнует.


    > улучшение производительности

    Тесты показывают падение производительности по сравнению с 2.5

    > и эффективности выполнения четвёртой фазы проверки целостности ФС в утилите LFSCK,

    Уже перестала ловить deadlock на OSS ?

    > поддержку работы серверов и клиентов на системах с Red Hat Enterprise Linux 7.x,

    Зашибись - но 7.x был с времен 2.6.

    > возможность выполнения клиентом операций множественного изменения метаданных из многопоточных приложений.

    Спорное улучшение - хорошо работает когда у тебя MDT не догружен, плохо когда работает когда клиентов много. Требует очень много памяти на recovery. Если раньше можно было в 12G уложиться - теперь на сервера меньше 64G ставить смысла нету.

    Хвала Интел!

     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2024 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру