DeepSeek未来两年战略 | AI生成和翻译
问题: DeepSeek 在未来几年将做什么?
回答:
DeepSeek 正在流通一个约1万亿参数的MoE模型(V4),每token激活32–37B参数,支持100万token上下文,原生多模态(文本、图像、视频、音频),API定价比前沿闭源模型便宜10–50倍,预期在Apache 2.0许可证下开源权重,并可在双RTX 4090或单RTX 5090上本地运行。
其未来约两年的发展聚焦于三个战略方向:
1. 以效率为核心的MoE缩放
V4在V3(671B,37B激活)的MoE基础上进行了优化,采用更新后的路由机制,以更少的冗余计算在专家之间分配token。据报道,V4每token激活约370亿参数——与V3大致相同——这意味着推理成本保持可控,尽管总模型规模扩大了50%。这是核心创新:他们在横向增加参数量的同时保持激活率不变。下一个前沿是专家路由效率——减少256+专家池中的冗余计算。
针对你的GPU训练兴趣:DeepSeek-V3使用256个专家,每token激活8个,仅激活了671B参数中的37B(激活率5.5%),并在推理时采用多token预测进行推测解码。关注专家间负载均衡的改进以及FP8友好的训练,以减小mi300x集群上的VRAM占用。
2. 推理(R1 → R2)与智能体系统
R2的开发出现延迟,因为CEO梁文峰对其性能不满意;工程师们一直在完善R2直到梁文峰批准发布,截至2026年5月7日,R2并未出现在当前模型ID列表中。这一延迟表明他们瞄准的不仅仅是更好的基准测试——很可能是多语言推理的改进(R1在英语方面表现强劲,但在中文数学/代码方面较弱)以及更深度的长周期智能体规划。
DeepSeek计划在2025年底前推出一个AI智能体,基于现有技术(如R1和V3/V3.1)实现可扩展的AI进步。这对你而言至关重要:他们正在从以模型为中心转向以智能体为中心的架构。预计将涉及工具使用、规划、多步推理以及类似OpenAI o1的内部推理轨迹。
3. 基础设施与成本降低
DeepSeek将在2025年扩展其云生态系统,推出DeepSeek Cloud——一个可扩展的平台,提供无缝的模型访问。他们正在构建垂直整合:在AMD芯片上训练(避开Nvidia出口限制),通过自有云提供服务,开源权重供本地部署。这使其覆盖范围扩大了三倍——API用户、自托管企业以及研究社区都能获得访问。
API定价是他们的主要护城河。V4 API比GPT-5.4和Claude Opus 4.8便宜10–50倍,这迫使其他实验室优化或失去市场份额。预计价格将持续压缩并扩展到对每次推理成本敏感的垂直领域(金融、法律)。
4. 视觉与多模态整合
DeepSeek在2024年12月宣布V3时暗示了未来的多模态支持,提到了DeepSeek生态系统中的多模态支持和前沿功能。VL2和Janus模型已部署用于视觉、OCR和多模态生成;Janus-Pro-7B被追踪为活跃状态。他们的多模态路线是并行轨道(VL2用于视觉语言,Janus用于生成),尚未统一到V4中——预计到2027年实现融合。
5. 开源加速
DeepSeek计划扩大开源倡议,为研究人员提供对数据集、方法论和模型架构的透明访问,以培养社区信任并巩固其作为负责任AI研究领导者的地位。这是一种文化转变:他们是在透明度和可访问性上竞争,而非通过护城河进行守门。预计将出现开源技术报告、官方发布前泄露的权重以及社区驱动的评估。
针对你的具体情况:
考虑到你的MI300X设置和对nanoGPT的兴趣:
- 关注MoE路由代码——其专家调度机制是效率所在。将激活预测与前向传递解耦。
- 本地推理优化——V4在37B活跃token下可在你的RTX 4070上运行。研究vLLM/SGLang + 推测解码来处理该代码路径。
- 智能体架构——R2及其计划中的智能体表明他们正朝着智能体系统发展;这是下一代工程所在。
- 成本曲线——每月追踪他们的API定价。他们预示着到2027年推理成本将降至$0.001/token的竞赛。利润空间被压缩,价值将转移到智能体/应用上。
核心论点: DeepSeek正在执行规模效率战略。不是“更快地推出更大模型”——而是“相同能力,10倍便宜,开源权重,本地运行”。这直接威胁到Nvidia的利润结构,并迫使其他所有人重新思考架构。他们未来几年的重点在于加倍利用这种不对称优势。