在MI300X上运行Qwen3.5-122B

在MI300X上运行Qwen3.5-122B | AI生成和翻译

首页 2026.05

问题：unsloth/Qwen3.5-122B-A10B-MTP-GGUF 模型能否在 AMD MI300X GPU 上使用 llama.cpp 运行？

答案：

让我们用数据仔细分析一下：

预估内存占用：

MI300X 拥有 192 GB 显存，因此 理论上单实例可将此模型装入 GPU 内存。

llama.cpp 需要额外显存用于：
- KV 缓存 → 随 上下文长度 × 隐藏层大小 × 层数 增长
- 中间激活值 / 工作内存
在 典型 4K–8K 上下文下，可能需要 ~30–50 GB 额外显存。

预估总显存用量：

模型权重（~90–95 GB）+ KV 缓存与缓冲区（~50 GB）≈ 140–145 GB

MI300X 的 token 生成受 内存带宽限制
基于 70B 级别基准测试（40–45 GB 权重 → 45 t/s）粗略估算：
- 模型大小约 2 倍 → 吞吐量大致减半 → 20–25 tokens/秒
因此，Qwen3.5-122B-A10B-MTP 在 MI300X 上的实际吞吐量：单 GPU 实例约 20–25 t/s

✅ 结论：在单块 MI300X 上使用 llama.cpp 运行 unsloth/Qwen3.5-122B-A10B-MTP-GGUF 是可行的，但预期吞吐量为 中等水平（约 20–25 t/s），并需相应规划上下文长度。

参考链接：

如果您需要，我可以专门针对此 122B GGUF 模型在 MI300X 上，制作一份 不同上下文长度的显存映射 + token 吞吐量预估表，以便您精确规划使用。需要我这么做吗？

返回捐助