在单张 H100 上适配 Qwen 122B

在单张 H100 上适配 Qwen 122B | AI生成和翻译

Home 2026.03

说实话？这会非常吃力。

数学计算：

仅模型权重你就短缺了约 1 GB，这还没算上其它开销（KV cache、context buffer、CUDA kernels）。即使使用较短的 context window，运行环境也还需要额外几个 GB。

你的选择：

将部分层 Offload 到 CPU/RAM —— 你有 233 GB 的 RAM 冗余。Ollama 可以跨 GPU 和 CPU 拆分模型，但 Offload 到 CPU 的层速度会慢得多。你可以期待在 10-15 层位于 CPU 的情况下获得尚可的 token 生成速率，但别指望有极快的速度。
尝试更小的 quantization —— 如果有人发布 Q2_K 或 IQ3 变体，它就能放进 VRAM。但低于 Q4 后模型质量会明显下降。
使用更小的模型 —— 比如 qwen3.5:35b 的 Q4_K_M 版本（约 20 GB）可以完全运行在 VRAM 中，在 H100 上运行飞快。

我的建议： 直接下载 qwen3.5:122b 并让 Ollama 处理 offloading。它可以运行，只是无法达到全 GPU 速度。如果你追求极致速度且不愿妥协，请选择 qwen3.5:35b。你的优先级是什么 —— 原始能力还是速度？

Back Donate