The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

Релиз платформы для распределённой обработки данных Apache Hadoop 3.3

02.08.2020 10:02

После полутора лет разработки организация Apache Software Foundation опубликовала релиз Apache Hadoop 3.3.0, свободной платформы для организации распределённой обработки больших объёмов данных с использованием парадигмы map/reduce, при которой задача делится на множество более мелких обособленных фрагментов, каждый из которых может быть запущен на отдельном узле кластера. Хранилище на базе Hadoop может охватывать тысячи узлов и содержать эксабайты данных.

В состав Hadoop входит реализация распределенной файловой системы Hadoop Distributed Filesystem (HDFS), автоматически обеспечивающей резервирование данных и оптимизированной для работы MapReduce-приложений. Для упрощения доступа к данным в Hadoop хранилище разработана БД HBase и SQL-подобный язык Pig, который является своего рода SQL для MapReduce, запросы которого могут быть распараллелены и обработаны несколькими Hadoop-платформами. Проект оценивается как полностью стабильный и готовый для промышленной эксплуатции. Hadoop активно используется в крупных промышленных проектах, предоставляя возможности, аналогичные платформе Google Bigtable/GFS/MapReduce, при этом компания Google официально делегировала Hadoop и другим проектам Apache право использования технологий, на которые распространяются патенты, связанные с методом MapReduce.

Hadoop занимает первое место среди репозиториев Apache по числу вносимых изменений и пятое место по размеру кодовой базы (около 4 млн строк кода). Из крупных внедрений Hadoop отмечаются хранилища Netflix (сохраняется более 500 миллиардов событий в день), Twitter (кластер из 10 тысяч узлов в режиме реального времени хранит более зетабайта данных и обрабатывает более 5 миллиардов сеансов в день), Facebook (кластер из 4 тысяч узлов хранит более 300 петабайт и ежедневно увеличивается на 4 Пб в день).

Основные изменения в Apache Hadoop 3.3:

  • Добавлена поддержка платформ на основе архитектуры ARM.
  • Реализация формата Protobuf (Protocol buffers), используемого для сериализации структурированных данных, обновлена до выпуска 3.7.1 в связи с окончанием жизненного цикла ветки protobuf-2.5.0.
  • Расширены возможности коннектора S3A: добавлена поддержка аутентификации при помощи токенов (Delegation Token), улучшена поддержка кэширования ответов с кодом 404, увеличена производительность S3guard, повышена надёжность работы.
  • В файловой системе ABFS решены проблемы с автоматическим тюнингом.
  • Добавлена встроенная поддержка файловой системы Tencent Cloud COS для доступа к объектному хранилищу COS.
  • Добавлена полная поддержка Java 11.
  • Стабилизирована реализация HDFS RBF (Router-based Federation). В HDFS Router добавлены средства управления безопасностью.
  • Добавлен сервис DNS Resolution для определения клиентом серверов через DNS по именам узлов, позволяющий обойтись без перечисления всех хостов в настройках.
  • Добавлена поддержка планирования запуска оппортунистических контейнеров через централизованный менеджер ресурсов (ResourceManager), в том числе с возможностью распределения контейнеров с учётом нагрузки каждого узла.
  • Добавлен каталог приложений YARN (Yet Another Resource Negotiator) с возможностью поиска.


  1. Главная ссылка к новости (https://blogs.apache.org/hadoo...)
  2. OpenNews: Фонд Apache опубликовал отчёт за 2020 финансовый год
  3. OpenNews: В ходе атаки Meow удалено около 4000 общедоступных БД Elasticsearch и MongoDB
  4. OpenNews: Доступна система распределённых вычислений Apache Storm 2.0
  5. OpenNews: Релиз платформы для распределённой обработки данных Apache Hadoop 3.2
  6. OpenNews: Выпуск СУБД ScyllaDB 3.0, совместимой с Apache Cassandra
Лицензия: CC BY 3.0
Короткая ссылка: https://opennet.ru/53476-hadoop
Ключевые слова: hadoop
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (11) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, A.Stahl (ok), 12:12, 02/08/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • +7 +/
    Пятиминутка древних поговорок:

    Распределяй и обрабатывай.
    Хранилище хранилищу резерв.
    Все данные ношу с собой.
    Ну и конечно же: у семи админов база без пароля.

     
  • 1.2, YetAnotherOnanym (ok), 12:26, 02/08/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • +5 +/
    > хранит более 300 петабайт и ежедневно увеличивается на 4 Пб в день

    Не знал, что возраст Фейсбука - два с половиной месяца.

     
     
  • 2.3, Аноним (3), 18:43, 02/08/2020 [^] [^^] [^^^] [ответить]  
  • +/
    А зачем ему хранить больше сырых сообщений? Если надо, можно сделать аггрегаты и хранить только их.
     
  • 2.4, Сцукенберг (?), 18:48, 02/08/2020 [^] [^^] [^^^] [ответить]  
  • –1 +/
    > Не знал, что возраст Фейсбука - два с половиной месяца.

    А дальше назад ты ленту и не крути. А не то!

    P.S. нормальные люди, между прочим, и не крутят. Кому нужны котики трехмесячной давности? Вот мы их и...незаметно...того.

     
     
  • 3.5, Аноним (5), 19:03, 02/08/2020 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Котики gzip сжимаются до одного котика.
     
     
  • 4.6, Аноним (6), 04:39, 03/08/2020 [^] [^^] [^^^] [ответить]  
  • +/
    Котики совсем не сжимаются, тем более gzip. Можете попробовать zpaq, он вам дедуплицирует одинаковых котиков (единственный из архиваторов, который объединяет одинаковые файлы), но процессорное время не бесплатно, а диски то бездонные и стоят 20 баксов за терабайт качественного сторейжа в рознице. По-моему диски категории "олин раз записать и больше не трогать" вроде вдред раза в 2 дешевле были. Но каждые 5 лет диски в 4 раза увеличиваются в размере за те же деньги. Вроде то же самое и с плёнкой, только она впереди и оборудование недоступно обывателю.
     
  • 4.7, Сцукенберг (?), 09:12, 03/08/2020 [^] [^^] [^^^] [ответить]  
  • +/
    > Котики gzip сжимаются до одного котика.

    reduce'ятся же! ;-)

    А ты думал, зачем нам hadoop?


     
  • 4.8, анон (?), 16:43, 03/08/2020 [^] [^^] [^^^] [ответить]  
  • +/
    zfs умеет в dedup на лету. Но это, конечно, не бесплатно.
     
  • 3.9, онанизмус (?), 01:01, 04/08/2020 [^] [^^] [^^^] [ответить]  
  • +/
    >А дальше назад ты ленту и не крути. А не то!

    Не рекомендую на новом аккаунте крутить чужие ленты, кстати.

     
  • 3.10, товарищ майор (?), 11:35, 05/08/2020 [^] [^^] [^^^] [ответить]  
  • +/
    > Кому нужны котики трехмесячной давности?

    Все котики хранятся не менее 6 месяцев, мы за этим следим.

     
  • 3.11, товарищ майор (?), 11:36, 05/08/2020 [^] [^^] [^^^] [ответить]  
  • +/
    > Кому нужны котики трехмесячной давности? Вот мы их и...незаметно...того.

    Все котики хранятся не менее 6 месяцев, мы за этим следим. Даже те котики, которых, как вам кажется, вы удалили.

     
     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2024 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру