 |
Ускорение пересборки llama.cpp (доп. ссылка 1) |
Автор: Аноним
[обсудить]
|
| | При работе с llama.cpp имеется постоянная необходимость её пересобирать, так как в отличие от ONNX Runtime GGUF-файлы не хранят сериализованный граф вычислений, вместо этого процедура инференса вручную кодится в C++-коде, и за счёт применения информации, которую в ONNX обычно не сериализуют (ONNX обычно экспортируется автоматически, но знания можно туда встроить, если закодировать конструирование ONNX-графа вручную), может быть достигнута большая эффективность (по потреблению ресурсов) инференса.
... [Слишком большой объем текста. Скрыт. Для просмотра см. продолжение]
|
| |
 |