Экстремальная оптимизация инференса LLM на CPU (Intel). Кастомная сборка Llama.cpp.
Этот сайт служит хранилищем моих наработок по компиляции и тонкой настройке llama.cpp для достижения максимальной производительности вывода больших языковых моделей на потребительском железе без использования мощных GPU.
Unsloth.llama.cpp.AVX2, AVX-VNNI и технологии turboqwant для экстремального ускорения тензорных вычислений на ядрах процессоров Intel 12-го поколения.Для автоматизации сборки и запуска используются подготовленные bat-файлы (в окружении Windows):
# Сборка движка с нативными оптимизациями AVX2/VNNI
build_vnni.bat
# Запуск чат-интерфейса модели
run_qwen.bat