Gemma 4B Q5 性能评估 | AI生成和翻译

Home 2026.04

旅程与发现:在 RTX 4070 上运行 gemma-4-E4B-it-Q5_K_M.gguf

我们开始时的状况

切换过程

终止了旧进程(PID 135703),启动了新进程。服务器在约 5 秒内正常启动,提供 4 个槽位,每个槽位分配了 32768 个令牌的上下文长度。模型加载过程中未出现问题。

测试 1:中等长度提示词(约 7.3k 令牌)

测试 2:重度提示词(约 26k 令牌)

测试 3:超限提示词(约 76k 令牌)

关键发现

指标 数值
模型磁盘大小 5.5 GB
量化方式 Q5_K_M(高质量)
负载下的 RSS 约 6.5 GB
生成速度 约 10.8 令牌/秒
提示词评估(已缓存) 26k 已缓存令牌仅需 96 毫秒
思考型模型 是 — 使用 reasoning_content 字段
稳定性 所有测试中均无崩溃
上下文限制处理 优雅的 400 错误

观察总结

  1. E4B 对比 26B-A4B:模型名称 E4B 暗示这可能是一个比之前运行的 26B-A4B 更小或不同的 MoE 配置。Q5_K_M 量化比 IQ2_M 质量高得多 — 压缩伪影更少,输出质量更好,代价是文件体积更大。

  2. 思考模型行为:如果你通过 API 客户端使用它,需要注意思考令牌会占用 max_tokens 的配额。需要将 max_tokens 设置得更高(例如 1024+),以便为推理后的实际输出留出空间。

  3. 性能稳健:约 10.8 令牌/秒的速度对于交互式聊天是可用的。提示词缓存是一个不错的加分项 — 重复或相似的提示词能获得近乎即时的提示词评估。

  4. 在 32k 上下文限制下无崩溃:你所问的主要问题 — 它能很好地处理长提示词。即使请求超过限制,服务器也能保持稳定。


Back Donate