Проект sch-qwen

Экстремальная оптимизация инференса LLM на CPU (Intel). Кастомная сборка Llama.cpp.

Этот сайт служит хранилищем моих наработок по компиляции и тонкой настройке llama.cpp для достижения максимальной производительности вывода больших языковых моделей на потребительском железе без использования мощных GPU.

Аппаратная конфигурация

CPU Intel Core i5-12400F
(6 ядер / 12 потоков)
RAM 32 GB DDR4
GPU NVIDIA GT 610
(Используется только для вывода изображения)

Детали реализации

Скрипты запуска

Для автоматизации сборки и запуска используются подготовленные bat-файлы (в окружении Windows):

# Сборка движка с нативными оптимизациями AVX2/VNNI
build_vnni.bat

# Запуск чат-интерфейса модели
run_qwen.bat