DeepSeek 模型训练时间与效率

DeepSeek 模型训练时间与效率 | AI生成和翻译

Home 2026.04

直接回答您的问题：训练像 DeepSeek-V2（及其后续版本 V3）这样的模型需要大约 两个月 的连续计算时间。

因为 DeepSeek 使用了一个相对较小但高度优化的 GPU 集群，他们不需要一整年的训练周期。以下是该时间具体的使用分解：

对于 DeepSeek-V3（最新且更大的版本），训练分为几个阶段完成：

Pre-training: 不到 2 个月（具体约为 55–60 天）。
Rate of Progress: 在他们的 2,048 H800 GPUs 集群上，他们能够每 3.7 天处理 1 万亿 tokens。
Context Extension: 额外几天时间教模型处理长文档（最多 128k tokens）。
Post-training (SFT/RL): 与主要预训练相比，非常短的时期（几天）。

您可能想知道，为什么 2,048 个 GPU 的“较小”集群能在其他公司使用 20,000+ GPU 时这么快完成。

Mixture-of-Experts (MoE): 由于模型针对每个词只“激活”大约 $10\% - 15\%$ 的“脑力”，计算速度快得多。
FP8 Training: 他们使用了称为 FP8（8 位浮点数）的数据格式，与旧模型使用的传统 16 位格式相比，本质上将硬件速度加倍。
High Stability: DeepSeek 报告称他们的训练过程“异常稳定”，具有 零不可恢复的损失峰值。在 AI 训练中，“崩溃”或“故障”常常迫使工程师从一周前的备份重新开始；DeepSeek 完全避免了这些延迟。

为了将您的 $500M 估计放在更清晰的视角中：

DeepSeek 花费较少不是因为训练时间较短；他们花费较少是因为他们的“汽车”（模型架构）的燃油效率比竞争对手高 10 倍。

参考文献：

Back Donate