RTX 4070的vLLM模型指南 | AI生成和翻译

Home 2026.04

问题：RTX 4070 上可以用 vLLM 部署哪些开源模型？

回答：

你的 RTX 4070（12GB 显存） 配合 vLLM 比 llama.cpp 限制更严格：

vLLM 支持多种架构，包括 Qwen、Gemma、DeepSeek、Llama、Mistral 等。（vLLM）

适用于 vLLM + RTX 4070 (12GB) 的最佳模型

以下模型可流畅运行：

Qwen/Qwen2.5-7B-Instruct-AWQ

原因：

运行命令：

vllm serve Qwen/Qwen2.5-7B-Instruct-AWQ \
  --quantization awq

google/gemma-2-9b-it

运行命令：

vllm serve google/gemma-2-9b-it \
  --dtype float16

或者更好选择：

gemma-2-9b-it-awq

deepseek-ai/deepseek-llm-7b-chat

轻量且稳定。

以下模型有可能运行，前提是：

Qwen/Qwen2.5-14B-Instruct-AWQ

但许多用户反馈 12GB GPU 在 vLLM 中无法完全容纳。（Reddit）

mistralai/Mistral-Small-12B-Instruct

可能需要参数：

--max-model-len 4096
--gpu-memory-utilization 0.9

以下模型无法运行：

即使 27B INT4 量化模型，在考虑 KV 缓存前也可能需要约 27GB 显存。（Reddit）

使用此模型：

Qwen2.5-7B-Instruct-AWQ

最佳平衡：

我会推荐最适合的模型：

告诉我即可。

Back Donate