精通 llama.cpp 命令行选项 | AI生成和翻译

Home 2026.02

Question: 请提供 llama.cpp 命令行选项的全面介绍。

Answer:

llama.cpp 是一个高效的 C/C++ 库,用于在本地运行 Large Language Models (LLMs)。它包含几个主要的执行文件,这些文件共享大部分参数但用途不同:

绝大多数重要的选项在 llama-cli 和 llama-server 中是通用的。

1. 模型加载 – 最最重要的标志 (Flags)

2. Context & KV Cache 控制

3. GPU / 加速层

4. 性能 / 线程 (Performance / Threading)

5. Sampling – 控制创意与质量

6. Prompt & Chat 控制 (主要针对 llama-cli)

7. llama-server 特有选项 (兼容 OpenAI API)

8. 快速参考 – 2025–2026 流行组合

快速本地对话 (优质 GPU):

./llama-cli -m model-Q5_K_M.gguf -ngl 99 -fa --temp 0.7 --min-p 0.05 --top-k 40 --top-p 0.9 -c 32768 --color -cnv

高性能服务器 (RTX 4090 / 5090 级别):

./llama-server -m model-Q6_K.gguf --n-gpu-layers 999 -fa --flash-attn --ubatch-size 1024 -c 32768 --temp 0.6 --min-p 0.1 --cont-batching --host 0.0.0.0

超长 Context 纯 CPU 运行:

./llama-cli -m model-Q4_K_M.gguf -ngl 0 -c 131072 --rope-scaling yarn --rope-scale 16 --no-mmap --threads 24

选项更新非常快 — 请务必运行 ./llama-cli --help./llama-server --help 以查看当前版本最准确的列表。

References:


Back Donate