====== Нейросетевая шпаргалка ======

===== Сборка llama.cpp =====

cd devel\\
git clone https://github.com/ggml-org/llama.cpp\\
cd llama.cpp\\
git pull\\
git fetch\\
cmake -S . -B build -DGGML_HIP=ON -DAMDGPU_TARGETS=gfx1102 -DCMAKE_BUILD_TYPE=Release\\
cmake --build build -j 24 --config Release\\
sudo cp build/bin/* /usr/local/bin/\\

===== Конвертация модели в gguf =====

~/devel/llama.cpp/convert_hf_to_gguf.py --outtype bf16 --outfile ~/ggufs/F/Qwen3-55B-A3B-TOTAL-RECALL-V1.3-128k-BF16.gguf ~/models/DavidAU/Qwen3-55B-A3B-TOTAL-RECALL-V1.3-128k/

~/devel/llama.cpp/convert_hf_to_gguf.py --outfile ~/ggufs/VL/Qwen2.5-VL-7B-Instruct-BF16.gguf --outtype bf16 ~/models/Qwen/Qwen2.5-VL-7B-Instruct/\\
~/devel/llama.cpp/convert_hf_to_gguf.py --outfile ~/ggufs/VL/Qwen2.5-VL-7B-Instruct-BF16.gguf --outtype bf16 --mmproj ~/models/Qwen/Qwen2.5-VL-7B-Instruct/

===== Квантизация =====

~/devel/llama.cpp/build/bin/llama-quantize ~/ggufs/F/DS-R1-0528-Qwen3-8B-BF16.gguf ~/ggufs/DS-R1-0528-Qwen3-8B-Q6_K.gguf Q6_K

===== Сервер с моделью text-to-text =====

~/devel/llama.cpp/build/bin/llama-server --seed 91 --port 8080 --host 127.0.0.1 -b 2048 -ub 512 --prio 3 -ngl 8 --temp 0.6 -t 24 -tb 24 -mg 0 -m ggufs/Llama-4-Scout-17B-16E-Instruct-Q5_K_M.gguf

===== Консоль с моделью image/text-to-text =====

~/devel/llama.cpp/build/bin/llama-mtmd-cli -ngl 30 -m ~/ggufs/VL/Qwen2.5-VL-32B-Instruct-Q6_K.gguf --mmproj ~/ggufs/VL/Qwen2.5-VL-32B-Instruct-BF16-mmproj.gguf --image /home/fox/photos/IMG_20250715_092909_907.jpg -p "На изображении рабочий стол человека. Перечисли все предметы на нём. Составь примерный психологический портрет этого человека, опиши его жизнь, стремления, страхи, ожидания и так далее."