The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



"Релиз GNU tar 1.30"
Версия для распечатки Пред. тема | След. тема
Форум Разговоры, обсуждение новостей
Исходное сообщение [ Отслеживать ]
Присылайте удачные настройки в раздел примеров файлов конфигурации на WIKI.opennet.ru.
. "Релиз GNU tar 1.30" +/
Сообщение от Аноним84701 (ok), 19-Дек-17, 22:11 
>> От tar вижу смысл отказываться только тогда, когда действительно важен произвольный доступ (squashfs), нужна дедупликация (borg)
> squashfs имеет встроеную дедупликацию.

Если ее не дополнили,  т.е. дедупликация на уровне файлов, то это не то.

В дедупе борга, аттики, zbackup (и вроде бы, лезть в сорцы лень) rsync и еще целой кучи утилит/клонов основная фишка в нахождении дублирующихся _кусков_ (а не просто блоков, как например в zfs или целых файлов, как в squashfs) данных вариативной длины.

Пример:
Файл А: 11 22 33 44 55
Файл Б: 11 22 33 44 55
Файл В: 11 22 33 44 56
Файл Г: 00  11 22 33 44

А и Б (дупликаты на уровне файлов) распознаются сквошем (хэш/пров. сумма файла)
B (часть данных различается) детектится блочными дедупликаторами, типа ZFS и сохраняется только отличающийся блок.
На Г ("сдвиг")  блочный дедупликатор обломится (если конечно "сдвиг" не равен кратному длины блока), а вот "кусочная" дедупликация сможет "отделить мух от котлет".

Естественно, все имеет свою цену - первый способ почти "бесплатен", т.к. при упаковке пров. суммы файлов все равно считаются, тем более, пакуются данные только один раз.
Поблочный дедупликатор считает при каждой записи, плюс ему нужны индексы (см. классическую интернациональную драму на форумах всего интернета "ZFS дедап жрет ОЗУ как не в себя!" - фряшники советуют исходить от 2 до 5ГБ ОЗУ на 1 ТБ файлов).
У дедапа с кусками различной длины есть недостатки предыдущих способов, плюс еще более подтормаживающий хэш (тут правда смотреть надо - питон он обычно скоростью не отличается, а zbackup-овых 40-60 МБ/s может вполне хватать). Но для инкрементальных бэкапов, хранения или передачи схожих данных по узкому каналу и прочего оно вполне себе очень даже ничего.

Ключевые слова chunks + rolling hash + rabin karp
Кроме педивикии, см. можно тут:
https://github.com/YADL/yadl/wiki/Rabin-Karp-for-Variable-Ch...
https://software.intel.com/en-us/articles/accelerate-data-de...

Ответить | Правка | Наверх | Cообщить модератору

Оглавление
Релиз GNU tar 1.30, opennews, 18-Дек-17, 00:56  [смотреть все]
Форумы | Темы | Пред. тема | След. тема



Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру