forum.opennet.ru

Составление сообщения

Исходное сообщение

"HPC Village от Openwall: доступ к гибридной HPC-системе для ..."
Отправлено solardiz, 25-Окт-13 13:03

> А что, OpenCL ядра там не соберутся?
Есть шанс что соберутся и даже что будут работать, но почти наверняка неэффективно. Программировать под Xeon Phi желательно используя OpenMP и intrinsics, или хотя бы OpenMP и авто-векторизацию средствами icc. Вместо OpenMP, по вкусу, можно pthreads или даже fork() (240 раз), если делать полностью native-сборку (а не offload с хост-системы) - я проверял, работает. Векторизация в их OpenCL на данный момент не работает, если она там вообще есть. Т.е. через OpenCL получается только использование скалярной части 60-ти ядер (которая там времен первого Pentium, разогнанного на 1+ GHz), тогда как 512-битные SIMD units простаивают.
Еще одна мелкая особенность, если всё же использовать OpenCL: программы могут проверять на тип OpenCL-устройства - CL_DEVICE_TYPE_CPU или CL_DEVICE_TYPE_GPU - в то время как Xeon Phi не считает себя ни тем, ни другим, и выдает CL_DEVICE_TYPE_ACCELERATOR. Так что может потребоваться правка кода, чтобы он делал разумный для случая Xeon Phi выбор, увидев CL_DEVICE_TYPE_ACCELERATOR.
Для Litecoin mining надо подбирать оптимальный time-memory tradeoff. В майнерах соответствующий параметр назван gap, и для GPU его обычно ставят равным 2. Я не удивлюсь, если для Xeon Phi более оптимальным окажется 1, т.е. сохранение всех 128 KB (в L2 cache, которого как раз по 512/4 = 128 KB на один hardware thread), что позволит упростить и чуточку ускорить код. Ну и реализацию Salsa20 с помощью intrinsics наверняка можно написать лучше, чем это сделает компилятор - тем более, что надо реализовать от 4 до 16 экземпляров Salsa20 в одном векторе (он 512-бит, тогда как Salsa20 использует максимум 128) и выбрать какой вариант окажется эффективнее.

Исходное сообщение
"HPC Village от Openwall: доступ к гибридной HPC-системе для ..." Отправлено solardiz, 25-Окт-13 13:03
> А что, OpenCL ядра там не соберутся? Есть шанс что соберутся и даже что будут работать, но почти наверняка неэффективно. Программировать под Xeon Phi желательно используя OpenMP и intrinsics, или хотя бы OpenMP и авто-векторизацию средствами icc. Вместо OpenMP, по вкусу, можно pthreads или даже fork() (240 раз), если делать полностью native-сборку (а не offload с хост-системы) - я проверял, работает. Векторизация в их OpenCL на данный момент не работает, если она там вообще есть. Т.е. через OpenCL получается только использование скалярной части 60-ти ядер (которая там времен первого Pentium, разогнанного на 1+ GHz), тогда как 512-битные SIMD units простаивают. Еще одна мелкая особенность, если всё же использовать OpenCL: программы могут проверять на тип OpenCL-устройства - CL_DEVICE_TYPE_CPU или CL_DEVICE_TYPE_GPU - в то время как Xeon Phi не считает себя ни тем, ни другим, и выдает CL_DEVICE_TYPE_ACCELERATOR. Так что может потребоваться правка кода, чтобы он делал разумный для случая Xeon Phi выбор, увидев CL_DEVICE_TYPE_ACCELERATOR. Для Litecoin mining надо подбирать оптимальный time-memory tradeoff. В майнерах соответствующий параметр назван gap, и для GPU его обычно ставят равным 2. Я не удивлюсь, если для Xeon Phi более оптимальным окажется 1, т.е. сохранение всех 128 KB (в L2 cache, которого как раз по 512/4 = 128 KB на один hardware thread), что позволит упростить и чуточку ускорить код. Ну и реализацию Salsa20 с помощью intrinsics наверняка можно написать лучше, чем это сделает компилятор - тем более, что надо реализовать от 4 до 16 экземпляров Salsa20 в одном векторе (он 512-бит, тогда как Salsa20 использует максимум 128) и выбрать какой вариант окажется эффективнее.

Ваше сообщение

Имя*:

EMail:

Для отправки ответов на email укажите знак ! перед адресом, например, !user@host.ru (!! - не показывать email).
Более тонкая настройка отправки ответов производится в профиле зарегистрированного участника форума.

Заголовок*:

Сообщение*:

>> А что, OpenCL ядра там не соберутся?

> Есть шанс что соберутся и даже что будут работать, но почти наверняка 
> неэффективно. Программировать под Xeon Phi желательно используя OpenMP и intrinsics, или 
> хотя бы OpenMP и авто-векторизацию средствами icc. Вместо OpenMP, по вкусу, 
> можно pthreads или даже fork() (240 раз), если делать полностью native-сборку 
> (а не offload с хост-системы) - я проверял, работает. Векторизация в 
> их OpenCL на данный момент не работает, если она там вообще 
> есть. Т.е. через OpenCL получается только использование скалярной части 60-ти ядер 
> (которая там времен первого Pentium, разогнанного на 1+ GHz), тогда как 
> 512-битные SIMD units простаивают.

> Еще одна мелкая особенность, если всё же использовать OpenCL: программы могут проверять 
> на тип OpenCL-устройства - CL_DEVICE_TYPE_CPU или CL_DEVICE_TYPE_GPU - в то время 
> как Xeon Phi не считает себя ни тем, ни другим, и 
> выдает CL_DEVICE_TYPE_ACCELERATOR. Так что может потребоваться правка кода, чтобы он делал 
> разумный для случая Xeon Phi выбор, увидев CL_DEVICE_TYPE_ACCELERATOR.

> Для Litecoin mining надо подбирать оптимальный time-memory tradeoff. В майнерах соответствующий 
> параметр назван gap, и для GPU его обычно ставят равным 2. 
> Я не удивлюсь, если для Xeon Phi более оптимальным окажется 1, 
> т.е. сохранение всех 128 KB (в L2 cache, которого как раз 
> по 512/4 = 128 KB на один hardware thread), что позволит 
> упростить и чуточку ускорить код. Ну и реализацию Salsa20 с помощью 
> intrinsics наверняка можно написать лучше, чем это сделает компилятор - тем 
> более, что надо реализовать от 4 до 16 экземпляров Salsa20 в 
> одном векторе (он 512-бит, тогда как Salsa20 использует максимум 128) и 
> выбрать какой вариант окажется эффективнее.

При общении не допускается: неуважительное отношение к собеседнику, хамство, унизительное обращение, ненормативная лексика, переход на личности, агрессивное поведение, обесценивание собеседника, провоцирование флейма голословными и заведомо ложными заявлениями. Не отвечайте на сообщения, явно нарушающие правила - удаляются не только сами нарушения, но и все ответы на них. Лог модерирования.

Партнёры:

Хостинг:

Закладки на сайте
Проследить за страницей

Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру