Llama 服务器在 MI300X 上运行

Llama 服务器在 MI300X 上运行 | AI生成和翻译

首页 2026.05

服务器已启动！ 以下是完整状态：

llama-server：在端口 8080 上运行

模型： Qwen3.5-122B-A10B-UD-IQ1_M（总参数122B / 约10B活跃MoE） 文件大小： 37 GB（IQ1_M 量化） 显存： 总计 196,288 MiB / 空闲 194,606 MiB — 空间充足

性能

Metric	Speed
Prompt processing	77.4 t/s
Token generation	91.2 t/s

服务器配置

设置项	值
上下文	32,768 tokens（4个插槽）
GPU层数	99（全部在MI300X上）
线程数	16
内存	mlocked（无交换）
API	与OpenAI兼容，地址 `http://165.245.137.138:8080/v1`
进程PID	292080

API使用

curl http://165.245.137.138:8080/v1/chat/completions \
  -H 'Content-Type: application/json' \
  -d '{
    "model": "Qwen3.5-122B-A10B-UD-IQ1_M",
    "messages": [{"role": "user", "content": "Your prompt here"}],
    "max_tokens": 500
  }'

模型已加载并启用了推理/思考能力（Qwen3.5默认设置）——你将在最终答案之前获得 reasoning_content 中的思维链。凭借在122B MoE上91 t/s的生成速度，MI300X运行非常强劲。

返回捐助