The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

AI

   Корень / Программисту и web-разработчику / AI

----* Ускорение пересборки llama.cpp (доп. ссылка 1)   Автор: Аноним  [обсудить]
  При работе с llama.cpp имеется постоянная необходимость её пересобирать, так как в отличие от ONNX Runtime GGUF-файлы не хранят сериализованный граф вычислений, вместо этого процедура инференса вручную кодится в C++-коде, и за счёт применения информации, которую в ONNX обычно не сериализуют (ONNX обычно экспортируется автоматически, но знания можно туда встроить, если закодировать конструирование ONNX-графа вручную), может быть достигнута большая эффективность (по потреблению ресурсов) инференса.
...
[Слишком большой объем текста. Скрыт. Для просмотра см. продолжение
]
 

 Версия для печати





Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2026 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру