小米MiMo降价技术优化

小米MiMo降价技术优化 | AI生成和翻译

首页 2026.05

问题： 小米 MiMo 公告说了什么？降价背后的关键技术优化有哪些？

回答：

小米刚刚发送了一份开发者通讯，宣布对 MiMo-V2.5 推理模型 API 进行大幅降价，自今日（北京时间 2026-05-27）起生效。核心信息：最高降幅达 99%。

模型	缓存命中输入	缓存未命中输入	输出
MiMo-V2.5-Pro	¥0.025/百万 tokens	¥3/百万 tokens	¥6/百万 tokens
MiMo-V2.5	¥0.02/百万 tokens	¥1/百万 tokens	¥2/百万 tokens
MiMo-V2.5-TTS	免费（限时）	—	—

对比：MiMo-V2.5 输出定价 ¥2/百万 tokens ≈ $0.28/百万 tokens — 低于 GPT-4o-mini 输出定价（$0.60/百万 tokens），在中国大模型 API 市场中定价激进。

缓存命中输入（¥0.02）与缓存未命中输入（¥1）之间巨大的价差，激励你构造带有长稳定系统提示的 prompt 以最大化缓存命中——与 Anthropic 的 prompt caching 策略相同。

此次降价背后有实实在在的工程优化。我们逐一分析他们具体做了什么：

SWA（用于 Mistral 风格架构）意味着每个 token 只关注一个固定窗口内的最近 token，而非全部上下文。这限制了每层 KV 缓存的大小：

标准注意力：每层 KV 缓存随 O(seq_len × d_model) 增长
SWA：每层 KV 缓存上限为 O(window_size × d_model)

HiCache 是 SGLang 的分层 KV 缓存系统——它在以下层级间进行分层存储：

他们的宣称：数据传输量降至原来的 1/7，可缓存 token 数量增加 5 倍。这是缓存命中价格比缓存未命中便宜 50 倍的核心原因——服务一个缓存的 token 几乎零成本。

MiMo 是一个 MoE（混合专家） 模型（基于其架构）。专家并行意味着不同 GPU 处理不同专家。优化可能涉及：

他们不再将每个序列填充到最大长度，而是按长度范围将输入分桶：

# 概念上：
buckets = [512, 1024, 2048, 4096, 8192]
# 将同一桶内的请求批量处理 → 减少填充浪费 → 提高 GPU 利用率

这提升了每 GPU 的吞吐量，直接降低了每 token 的成本。

现有付费用户已消耗的积分归零重置——实际上是免费补满。由于按新价格 V2.5 token 的使用效率是 V2 的 5-8 倍，现有方案的价值大大提升。这是聪明的留存用户举措。

如果你正在用中国大模型 API 构建任何东西（银行工作、智能体、CLI 工具），现在值得把 MiMo-V2.5 与以下模型进行 Benchmark 对比：

SWA + HiCache 的架构洞察也直接适用于你自己的推理工作——如果你在 RTX 4070 或 AMD MI300X 上运行 SGLang，这些就是你需要理解的调优关键点。

返回捐助