Нейросетевая шпаргалка

Сборка llama.cpp

cd devel
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
git pull
git fetch
cmake -S . -B build -DGGML_HIP=ON -DAMDGPU_TARGETS=gfx1102 -DCMAKE_BUILD_TYPE=Release
cmake –build build -j 24 –config Release
sudo cp build/bin/* /usr/local/bin/

Конвертация модели в gguf

~/devel/llama.cpp/convert_hf_to_gguf.py –outtype bf16 –outfile ~/ggufs/F/Qwen3-55B-A3B-TOTAL-RECALL-V1.3-128k-BF16.gguf ~/models/DavidAU/Qwen3-55B-A3B-TOTAL-RECALL-V1.3-128k/

~/devel/llama.cpp/convert_hf_to_gguf.py –outfile ~/ggufs/VL/Qwen2.5-VL-7B-Instruct-BF16.gguf –outtype bf16 ~/models/Qwen/Qwen2.5-VL-7B-Instruct/
~/devel/llama.cpp/convert_hf_to_gguf.py –outfile ~/ggufs/VL/Qwen2.5-VL-7B-Instruct-BF16.gguf –outtype bf16 –mmproj ~/models/Qwen/Qwen2.5-VL-7B-Instruct/

Квантизация

~/devel/llama.cpp/build/bin/llama-quantize ~/ggufs/F/DS-R1-0528-Qwen3-8B-BF16.gguf ~/ggufs/DS-R1-0528-Qwen3-8B-Q6_K.gguf Q6_K

Сервер с моделью text-to-text

~/devel/llama.cpp/build/bin/llama-server –seed 91 –port 8080 –host 127.0.0.1 -b 2048 -ub 512 –prio 3 -ngl 8 –temp 0.6 -t 24 -tb 24 -mg 0 -m ggufs/Llama-4-Scout-17B-16E-Instruct-Q5_K_M.gguf

Консоль с моделью image/text-to-text

~/devel/llama.cpp/build/bin/llama-mtmd-cli -ngl 30 -m ~/ggufs/VL/Qwen2.5-VL-32B-Instruct-Q6_K.gguf –mmproj ~/ggufs/VL/Qwen2.5-VL-32B-Instruct-BF16-mmproj.gguf –image /home/fox/photos/IMG_20250715_092909_907.jpg -p «На изображении рабочий стол человека. Перечисли все предметы на нём. Составь примерный психологический портрет этого человека, опиши его жизнь, стремления, страхи, ожидания и так далее.»