小米MiMo降价技术优化 | AI生成和翻译

Home 2026.05

问题: 小米 MiMo 公告说了什么?降价背后的关键技术优化有哪些?

回答:

摘要

小米刚刚发送了一份开发者通讯,宣布对 MiMo-V2.5 推理模型 API 进行大幅降价,自今日(北京时间 2026-05-27)起生效。核心信息:最高降幅达 99%


定价明细

模型 缓存命中输入 缓存未命中输入 输出
MiMo-V2.5-Pro ¥0.025/百万 tokens ¥3/百万 tokens ¥6/百万 tokens
MiMo-V2.5 ¥0.02/百万 tokens ¥1/百万 tokens ¥2/百万 tokens
MiMo-V2.5-TTS 免费(限时)

对比:MiMo-V2.5 输出定价 ¥2/百万 tokens ≈ $0.28/百万 tokens — 低于 GPT-4o-mini 输出定价($0.60/百万 tokens),在中国大模型 API 市场中定价激进。

缓存命中输入(¥0.02)与缓存未命中输入(¥1)之间巨大的价差,激励你构造带有长稳定系统提示的 prompt 以最大化缓存命中——与 Anthropic 的 prompt caching 策略相同。


技术解析(最有趣的部分)

此次降价背后有实实在在的工程优化。我们逐一分析他们具体做了什么:

1. SGLang + HiCache 配合滑动窗口注意力(SWA)

SWA(用于 Mistral 风格架构)意味着每个 token 只关注一个固定窗口内的最近 token,而非全部上下文。这限制了每层 KV 缓存的大小:

标准注意力:每层 KV 缓存随 O(seq_len × d_model) 增长
SWA:每层 KV 缓存上限为 O(window_size × d_model)

HiCache 是 SGLang 的分层 KV 缓存系统——它在以下层级间进行分层存储:

他们的宣称:数据传输量降至原来的 1/7可缓存 token 数量增加 5 倍。这是缓存命中价格比缓存未命中便宜 50 倍的核心原因——服务一个缓存的 token 几乎零成本。

2. 专家并行优化

MiMo 是一个 MoE(混合专家) 模型(基于其架构)。专家并行意味着不同 GPU 处理不同专家。优化可能涉及:

3. 输入长度分桶

他们不再将每个序列填充到最大长度,而是按长度范围将输入分桶:

# 概念上:
buckets = [512, 1024, 2048, 4096, 8192]
# 将同一桶内的请求批量处理 → 减少填充浪费 → 提高 GPU 利用率

这提升了每 GPU 的吞吐量,直接降低了每 token 的成本。


Token 方案重置(商业侧)

现有付费用户已消耗的积分归零重置——实际上是免费补满。由于按新价格 V2.5 token 的使用效率是 V2 的 5-8 倍,现有方案的价值大大提升。这是聪明的留存用户举措。


这对你的意义

如果你正在用中国大模型 API 构建任何东西(银行工作、智能体、CLI 工具),现在值得把 MiMo-V2.5 与以下模型进行 Benchmark 对比:

SWA + HiCache 的架构洞察也直接适用于你自己的推理工作——如果你在 RTX 4070 或 AMD MI300X 上运行 SGLang,这些就是你需要理解的调优关键点。


Back Donate