RTX 4070 vLLM GGUF 限制 | AI生成和翻译

Home 2026.04

问：gemma-4-26B-A4B-it-UD-IQ3_S.gguf 可以在本地的 RTX 4070 服务器上通过 vLLM 运行吗？

答：

简短回答：不行。 你无法在 RTX 4070（12GB 显存） 上使用 vLLM 来运行 gemma-4-26B-A4B-it-UD-IQ3_S.gguf。

这存在 两个独立的障碍：

1. vLLM 不支持 GGUF 模型

你的模型：

gemma-4-26B-A4B-it-UD-IQ3_S.gguf

属于：

但 vLLM 仅支持：

vLLM 完全无法加载 GGUF 格式。

所以，在考虑显存之前——它根本就不会运行。

你必须使用以下之一：

RTX 4070：

12GB 显存

你的模型：

Gemma 4 26B IQ3_S

大致显存需求：

因此：

最佳选择：

使用 llama.cpp：

llama-server \
-m gemma-4-26B-A4B-it-UD-IQ3_S.gguf \
--n-gpu-layers 30

这样做可以：

使用更小的量化版本：

IQ2_XS
IQ2_S

这些可以完全装入 4070 的显存。

使用 非 GGUF 模型：

例如：

gemma-2-27b-it AWQ
gemma-2-9b-it
qwen3-14b-awq

这些模型可以在 vLLM 中运行。

如果你告诉我：

我会给出 针对 RTX 4070 的最佳模型选择。

Back Donate