小米MiMo降价技术优化 | AI生成和翻译
问题: 小米 MiMo 公告说了什么?降价背后的关键技术优化有哪些?
回答:
摘要
小米刚刚发送了一份开发者通讯,宣布对 MiMo-V2.5 推理模型 API 进行大幅降价,自今日(北京时间 2026-05-27)起生效。核心信息:最高降幅达 99%。
定价明细
| 模型 | 缓存命中输入 | 缓存未命中输入 | 输出 |
|---|---|---|---|
| MiMo-V2.5-Pro | ¥0.025/百万 tokens | ¥3/百万 tokens | ¥6/百万 tokens |
| MiMo-V2.5 | ¥0.02/百万 tokens | ¥1/百万 tokens | ¥2/百万 tokens |
| MiMo-V2.5-TTS | 免费(限时) | — | — |
对比:MiMo-V2.5 输出定价 ¥2/百万 tokens ≈ $0.28/百万 tokens — 低于 GPT-4o-mini 输出定价($0.60/百万 tokens),在中国大模型 API 市场中定价激进。
缓存命中输入(¥0.02)与缓存未命中输入(¥1)之间巨大的价差,激励你构造带有长稳定系统提示的 prompt 以最大化缓存命中——与 Anthropic 的 prompt caching 策略相同。
技术解析(最有趣的部分)
此次降价背后有实实在在的工程优化。我们逐一分析他们具体做了什么:
1. SGLang + HiCache 配合滑动窗口注意力(SWA)
SWA(用于 Mistral 风格架构)意味着每个 token 只关注一个固定窗口内的最近 token,而非全部上下文。这限制了每层 KV 缓存的大小:
标准注意力:每层 KV 缓存随 O(seq_len × d_model) 增长
SWA:每层 KV 缓存上限为 O(window_size × d_model)
HiCache 是 SGLang 的分层 KV 缓存系统——它在以下层级间进行分层存储:
- GPU HBM(快速、昂贵、容量小)
- CPU RAM(较慢、廉价、容量大)
- SSD(最慢、非常廉价、容量极大)
他们的宣称:数据传输量降至原来的 1/7,可缓存 token 数量增加 5 倍。这是缓存命中价格比缓存未命中便宜 50 倍的核心原因——服务一个缓存的 token 几乎零成本。
2. 专家并行优化
MiMo 是一个 MoE(混合专家) 模型(基于其架构)。专家并行意味着不同 GPU 处理不同专家。优化可能涉及:
- 更好的专家间负载均衡
- 减少专家路由通信开销
- 可能采用融合的 dispatch/combine 内核
3. 输入长度分桶
他们不再将每个序列填充到最大长度,而是按长度范围将输入分桶:
# 概念上:
buckets = [512, 1024, 2048, 4096, 8192]
# 将同一桶内的请求批量处理 → 减少填充浪费 → 提高 GPU 利用率
这提升了每 GPU 的吞吐量,直接降低了每 token 的成本。
Token 方案重置(商业侧)
现有付费用户已消耗的积分归零重置——实际上是免费补满。由于按新价格 V2.5 token 的使用效率是 V2 的 5-8 倍,现有方案的价值大大提升。这是聪明的留存用户举措。
这对你的意义
如果你正在用中国大模型 API 构建任何东西(银行工作、智能体、CLI 工具),现在值得把 MiMo-V2.5 与以下模型进行 Benchmark 对比:
- DeepSeek-V3(¥2/百万 tokens 输出,同级别)
- Qwen-Plus
- 你当前在处理非英语任务时使用的 Claude/GPT-4o
SWA + HiCache 的架构洞察也直接适用于你自己的推理工作——如果你在 RTX 4070 或 AMD MI300X 上运行 SGLang,这些就是你需要理解的调优关键点。