大语言模型推理成本骤降

大语言模型推理成本骤降 | AI生成和翻译

首页 2026.06

问题： 当前GPT-4级别大语言模型推理的成本是多少？过去两年间成本下降了多少？

答案： 数据是具体的，成本崩塌是真实的。以下是完整图景：

成本崩塌数据一览

GPT-4同等性能的推理成本现为 每百万token 0.40美元，而2022年底为 每百万token 20美元。这意味着约3年内实现了 50倍下降。推理成本正以每年约10倍的速度下降——比个人电脑计算或互联网泡沫时代的带宽增长更快。

当前定价层级（2026年6月）

已形成三个清晰的层级：

层级	模型	输出成本
高端	Claude Opus 4.6, GPT-5 Pro	每百万输出token 14–168美元
中端	Claude Sonnet 4.6, GPT-5.4, Grok 4	每百万输出token 3–15美元
经济型	DeepSeek V3.2, Gemini Flash, GPT nano	每百万输出token 0.40–3美元

对你最相关的数据：

DeepSeek R1（每百万token输入/输出成本为0.55美元/2.19美元）的推理成本约为o3（每百万输出token 60美元）的 1/27。对于大多数生产工作负载，Claude Sonnet 4.6（3美元/15美元）或GPT-5.4（2.50美元/15美元）能实现最佳平衡。DeepSeek V3.2是最便宜的前沿级选项，成本为 每百万token输入/输出0.14美元/0.28美元。

成本崩塌的驱动因素

主要驱动因素：DeepSeek以比现有厂商低90%的定价颠覆了市场。云端H100价格在从2023年峰值下跌64–75%后，稳定在每小时2.85–3.50美元。量化技术使运营成本降低60–70%。推测解码将延迟缩短2–3倍。

在模型架构方面：得益于改进的训练技术，模型在保持性能的同时变得更小——一个130亿参数的模型现在能以显著更小的推理占用达到GPT-3 MMLU分数的95%。

对你规模的实用影响

按每月约10亿token计算，以下是这些数据对你的意义：

模型	输入（10亿token）	输出（假设2亿token）
DeepSeek V3.2	140美元	56美元
Claude Sonnet 4.6	3,000美元	3,000美元
Claude Opus 4.6	15,000美元	15,000美元

MiMo免费额度（46亿token）根据对比的模型不同，实际价值为 644–46,000美元。

一个值得注意的优化：在超过1000万次请求时，将80%路由到廉价模型、20%路由到前沿模型，相比全部路由到前沿模型可降低60–70%的成本。Anthropic还提供激进的提示缓存折扣，缓存部分最高可享90%优惠。

趋势很明确——再过两年，前沿级能力的每百万token成本很可能从0.40美元降至0.04美元。对于智能体工作负载，瓶颈正从成本转向 延迟和上下文窗口。

参考资料：

返回捐助