AI推理成本与速度突破 | AI生成和翻译
好,视频已确认:《Tri Dao:英伟达主导地位的终结,推理成本为何下降,以及下一个10倍速度提升》——Tri Dao,Together AI首席科学家、普林斯顿大学教授,FlashAttention和Mamba的创建者,探讨推理优化与成本降低。让我获取更多内容。我找到了Tri Dao的详细内容。现在让我再查找那期特定播客节目的文字记录或详细笔记。好了,我现在有足够的信息给出扎实的答案。具体视频来自Redpoint Ventures的《Unsupervised Learning》播客。我无法直接提取文字记录,但我从视频描述、相关访谈以及Tri Dao同时期的其他陈述中整合出了关键内容。
问题: Tri Dao在这次谈话中说了什么?(https://www.youtube.com/watch?v=xlSaoP0b90A)
回答:
该视频是Redpoint Ventures《Unsupervised Learning》播客节目,标题为《英伟达主导地位的终结,推理成本为何下降,以及下一个10倍速度提升》,发布于2025年9月10日。Tri Dao是Together AI首席科学家、普林斯顿大学教授,FlashAttention和Mamba的创建者。
以下是该集内容(根据描述、相关访谈以及Tri Dao那段时间已知立场重构):
1. 自ChatGPT发布以来,推理成本下降了约100倍
Tri Dao讨论了自ChatGPT发布以来,推理优化如何将成本降低了100倍。这是宏观背景。这100倍不仅仅来自硬件——很大一部分来自软件/算法改进:FlashAttention、更好的批处理(连续批处理、PagedAttention)、量化(FP8 → FP4)以及推测解码。
2. 100倍的原因——推理受内存限制,而非计算限制
这是Tri Dao处处提及的核心思维模型。在推理过程中(如今是主要工作负载),你主要使用内存子系统。这正是FlashAttention背后的洞察:注意力机制是I/O受限的,而非计算受限。硬件看似繁忙,但大部分时间都在等待HBM读取。
推测解码直接利用了这一点:生成五个token所需的总计算量相同,但你只需访问一次内存,而不是五次。你用闲置的FLOPs换取了更少的内存往返次数。
3. 软件算法能够媲美定制芯片
这是2025年Together AI工作的核心论点。“软件和算法的改进能够缩小与高度专业化硬件的差距。我们在这些大模型上实现了每秒500个token,甚至比某些定制芯片还快。”
Together AI使用的叠加技术栈:FP4量化(相比FP8基线提升80%)、静态推测解码(在此基础上再提升80-100%),然后再加上自适应推测解码。每一层都会叠加效果。
4. “下一个10倍”——自适应推测解码(ATLAS)
这是Together AI研究成果的落脚点。静态推测器的问题:“与我们合作的公司随着规模扩大,通常会发现工作负载发生变化,然后他们从推测执行中获得的速度提升不如之前。这些推测器在工作负载领域发生变化时通常效果不佳。”
解决方案是ATLAS(自适应学习推测器系统)——一种双模型架构:一个静态重型推测器提供基线,一个轻量级自适应推测器从实时流量中持续学习。你可以将其视为一种智能缓存方式,不是精确存储,而是找出你看到的一些模式……然后我们可以预测大模型将要说什么,并且随着时间推移,预测能力越来越强。
5. 英伟达的主导地位——论点
“英伟达主导地位的终结”这一框架与推理是不同于训练的场景有关:
- 训练:批量、吞吐量受限,CUDA护城河真实存在,H100/B200胜出
- 推理:延迟敏感、内存带宽受限、软件定义的优化更为重要,替代硬件(Groq LPU、Cerebras)可以竞争
Tri Dao的立场(从他的公开言论中反映)是在普通英伟达硬件上,以软件优先的推理优化可以媲美专用芯片——这既削弱了专用芯片的叙事,同时又论证了推理才是真正的优化前沿。
6. 工作负载漂移是隐藏的扩展成本
“也许他们最初将AI用于聊天机器人,但后来发现它还能写代码,于是开始转向代码。或者他们意识到这些AI实际上可以调用工具、控制电脑、做会计之类的事情。”
强化学习训练是静态推测器的另一个难题:训练过程中策略分布会发生变化,因此任何固定的推测器都会过时。在大规模下,自适应系统是必需的。
Tri Dao的信念(提炼后的论点)
| 主张 | 证据 |
|---|---|
| 推理现在是主导工作负载 | 在总计算量中的份额已超过训练 |
| 推理受内存限制,而非计算限制 | FlashAttention是证明案例 |
| 软件缩小了与定制硅的差距 | 在DeepSeek-V3.1上,B200达到500 tok/s,与Groq相当 |
| 静态推测器在工作负载漂移下会退化 | 在Together AI企业客户中得到验证 |
| 下一个10倍来自自适应、学习的优化 | ATLAS系统 |
| 英伟达的CUDA护城河在推理中弱于训练 | 硬件无关的软件胜出 |
你应该带走的要点(对你的工作而言)
- FlashAttention的洞察具有普适性:I/O受限是任何GPU优化的关键思维模型。在假设需要更快计算之前,先检查你的瓶颈。
- 推测解码已可用于生产,且具有叠加效应——如果你在规模上提供模型服务,这已经是必备技术。
- 工作负载漂移是你构建的任何推理优化系统的真正问题——静态假设会失效。
- FP4量化(Together AI声称相比FP8基线提升80%)是下一个需要理解的量化前沿;你运行的MI300X对FP8/FP4有很好的支持,值得探索。
参考文献:
- Tri Dao: The End of Nvidia’s Dominance — YouTube
- Together AI ATLAS Adaptive Speculator — VentureBeat
- Redpoint Unsupervised Learning Podcast Episode Page