Gemma 4 12GB显存服务器崩溃

Gemma 4 12GB显存服务器崩溃 | AI生成和翻译

Home 2026.04

以下为完整摘要：

模型下载 ✅

运行环境：

问题： 服务器在每次推理后崩溃——处理完一个请求后即正常退出。这似乎是当前版本llama.cpp与Gemma 4架构配合时出现的内存管理或SWA（滑动窗口注意力）缺陷。在仅512词元的上下文长度下，简单提示能正常工作，但生成较长输出时会触发内存溢出或崩溃。

现状： 服务器目前处于停止状态。每次使用前需重启，或可尝试以下方案：

API： http://localhost:8081——支持OpenAI兼容的/v1/chat/completions端点。

Back Donate