Llama 服务器在 MI300X 上运行 | AI生成和翻译

Home 2026.05

服务器已启动! 以下是完整状态:


llama-server:在端口 8080 上运行

模型: Qwen3.5-122B-A10B-UD-IQ1_M(总参数122B / 约10B活跃MoE) 文件大小: 37 GB(IQ1_M 量化) 显存: 总计 196,288 MiB / 空闲 194,606 MiB — 空间充足

性能

Metric Speed
Prompt processing 77.4 t/s
Token generation 91.2 t/s

服务器配置

设置项
上下文 32,768 tokens(4个插槽)
GPU层数 99(全部在MI300X上)
线程数 16
内存 mlocked(无交换)
API 与OpenAI兼容,地址 http://165.245.137.138:8080/v1
进程PID 292080

API使用

curl http://165.245.137.138:8080/v1/chat/completions \
  -H 'Content-Type: application/json' \
  -d '{
    "model": "Qwen3.5-122B-A10B-UD-IQ1_M",
    "messages": [{"role": "user", "content": "Your prompt here"}],
    "max_tokens": 500
  }'

模型已加载并启用了推理/思考能力(Qwen3.5默认设置)——你将在最终答案之前获得 reasoning_content 中的思维链。凭借在122B MoE上91 t/s的生成速度,MI300X运行非常强劲。


Back Donate