Together AI: 特里·道和平台 | AI生成和翻译
问题: Together AI 具体是做什么的?Tri Dao 在那里工作吗?
回答:
是的——Tri Dao 是 Together AI 的联合创始人兼首席科学家,而不仅仅是员工。他是五位联合创始人之一,其他四位包括 Vipul Ved Prakash(CEO)、Ce Zhang(CTO)、Chris Ré 和 Percy Liang——这些人都是斯坦福/卡内基梅隆大学系统与机器学习研究领域的重磅人物。
Together AI 是什么:
Together AI 是一个面向生产级 AI 的全栈 AI 平台,以前沿系统研究为驱动——帮助团队更快交付、可靠扩展,并实现更优的单位经济性。具体来说,它包含三部分:
-
推理 API —— 为开源模型(Llama、Qwen、Mistral、DeepSeek 等)提供快速、低成本的推理服务。实际基准测试显示,其 TPS(每秒 token 数)比 TensorRT-LLM 高 31%,在饱和状态下 TTFT(首 token 生成时间)提升 2 倍,成本比 Claude Opus 4.6 低 76%。
-
微调平台 —— 在其 GPU 基础设施上提供托管式微调服务,近期升级支持更大模型和更长上下文。
-
系统研究 —— 这是它的差异化优势。他们发布了 ATLAS(自适应学习推测系统,AdapTive-LeArning Speculator System),这是一种运行时学习加速器,可将 LLM 推理速度提升高达 4 倍,并且进行深度的内核级研究(Dan Fu 担任内核副总裁)。
Tri Dao 的具体角色:
他还是普林斯顿大学计算机科学系的助理教授,领导 Dao AI Lab,专注于硬件感知算法和具备长程记忆的序列模型。你应该了解他的两项代表性工作:
- FlashAttention / FlashAttention-2 —— 具备 IO 感知的精确注意力机制,现已成为所有严肃训练栈的标准配置。FA-2 在 A100 上实现了 72% 的模型 FLOPs 利用率,与前一版本相比,训练速度提升高达 4 倍。
- Mamba(与 Albert Gu 合作)—— 基于 SSM(状态空间模型)的 Transformer 替代方案,与“超越 Transformer”的浪潮密切相关。Together AI 基于此发布了 StripedHyena 和混合架构的相关论文。
这对你为何重要:
如果你正在基于开源模型构建产品,Together AI 是 OpenAI API 的最佳替代方案之一——具有竞争力的定价、针对 FlashAttention 优化的推理服务,以及背后真实的系统研究(而不仅仅是转售 GPU 算力)。鉴于你已经在使用 OpenRouter 和 DeepSeek,对于延迟敏感型工作负载(尤其是 Llama/Qwen 的推理场景),Together AI 值得进行基准测试。
参考链接: