DeepSeek未来两年战略

DeepSeek未来两年战略 | AI生成和翻译

首页 2026.06

问题： DeepSeek 在未来几年将做什么？

回答：

DeepSeek 正在流通一个约1万亿参数的MoE模型（V4），每token激活32–37B参数，支持100万token上下文，原生多模态（文本、图像、视频、音频），API定价比前沿闭源模型便宜10–50倍，预期在Apache 2.0许可证下开源权重，并可在双RTX 4090或单RTX 5090上本地运行。

其未来约两年的发展聚焦于三个战略方向：

1. 以效率为核心的MoE缩放

V4在V3（671B，37B激活）的MoE基础上进行了优化，采用更新后的路由机制，以更少的冗余计算在专家之间分配token。据报道，V4每token激活约370亿参数——与V3大致相同——这意味着推理成本保持可控，尽管总模型规模扩大了50%。这是核心创新：他们在横向增加参数量的同时保持激活率不变。下一个前沿是专家路由效率——减少256+专家池中的冗余计算。

针对你的GPU训练兴趣：DeepSeek-V3使用256个专家，每token激活8个，仅激活了671B参数中的37B（激活率5.5%），并在推理时采用多token预测进行推测解码。关注专家间负载均衡的改进以及FP8友好的训练，以减小mi300x集群上的VRAM占用。

2. 推理（R1 → R2）与智能体系统

R2的开发出现延迟，因为CEO梁文峰对其性能不满意；工程师们一直在完善R2直到梁文峰批准发布，截至2026年5月7日，R2并未出现在当前模型ID列表中。这一延迟表明他们瞄准的不仅仅是更好的基准测试——很可能是多语言推理的改进（R1在英语方面表现强劲，但在中文数学/代码方面较弱）以及更深度的长周期智能体规划。

DeepSeek计划在2025年底前推出一个AI智能体，基于现有技术（如R1和V3/V3.1）实现可扩展的AI进步。这对你而言至关重要：他们正在从以模型为中心转向以智能体为中心的架构。预计将涉及工具使用、规划、多步推理以及类似OpenAI o1的内部推理轨迹。

3. 基础设施与成本降低

DeepSeek将在2025年扩展其云生态系统，推出DeepSeek Cloud——一个可扩展的平台，提供无缝的模型访问。他们正在构建垂直整合：在AMD芯片上训练（避开Nvidia出口限制），通过自有云提供服务，开源权重供本地部署。这使其覆盖范围扩大了三倍——API用户、自托管企业以及研究社区都能获得访问。

API定价是他们的主要护城河。V4 API比GPT-5.4和Claude Opus 4.8便宜10–50倍，这迫使其他实验室优化或失去市场份额。预计价格将持续压缩并扩展到对每次推理成本敏感的垂直领域（金融、法律）。

4. 视觉与多模态整合

DeepSeek在2024年12月宣布V3时暗示了未来的多模态支持，提到了DeepSeek生态系统中的多模态支持和前沿功能。VL2和Janus模型已部署用于视觉、OCR和多模态生成；Janus-Pro-7B被追踪为活跃状态。他们的多模态路线是并行轨道（VL2用于视觉语言，Janus用于生成），尚未统一到V4中——预计到2027年实现融合。

5. 开源加速

DeepSeek计划扩大开源倡议，为研究人员提供对数据集、方法论和模型架构的透明访问，以培养社区信任并巩固其作为负责任AI研究领导者的地位。这是一种文化转变：他们是在透明度和可访问性上竞争，而非通过护城河进行守门。预计将出现开源技术报告、官方发布前泄露的权重以及社区驱动的评估。

针对你的具体情况：

考虑到你的MI300X设置和对nanoGPT的兴趣：

关注MoE路由代码——其专家调度机制是效率所在。将激活预测与前向传递解耦。
本地推理优化——V4在37B活跃token下可在你的RTX 4070上运行。研究vLLM/SGLang + 推测解码来处理该代码路径。
智能体架构——R2及其计划中的智能体表明他们正朝着智能体系统发展；这是下一代工程所在。
成本曲线——每月追踪他们的API定价。他们预示着到2027年推理成本将降至$0.001/token的竞赛。利润空间被压缩，价值将转移到智能体/应用上。

核心论点： DeepSeek正在执行规模效率战略。不是“更快地推出更大模型”——而是“相同能力，10倍便宜，开源权重，本地运行”。这直接威胁到Nvidia的利润结构，并迫使其他所有人重新思考架构。他们未来几年的重点在于加倍利用这种不对称优势。

返回捐助