DeepSeek-V3中的DualPipe

DeepSeek-V3中的DualPipe | AI生成和翻译

首页 2026.06

问题： DeepSeek-V3 中的 DualPipe 是什么？

答案：

DualPipe 是一种双向流水线并行算法，旨在解决 DeepSeek-V3 的 MoE 架构中跨节点专家并行带来的高通信开销。它在前向和后向过程中重叠计算与通信阶段，从而减少流水线气泡。

由于专家调度所需的跨节点全对全通信，V3 面临约 1:1 的不利计算-通信比。在传统流水线并行中，GPU 在等待通信完成时空闲（即流水线气泡）。当跨节点部署 2048 块 H800 GPU 时，这一问题在大规模下变得灾难性。

核心思想是将每个块划分为四个组件：注意力、全对全分发、MLP 和全对全合并。并非顺序执行前向→后向：

双向调度：

具体调度模式：

前向：  [MB1 fwd] [MB2 fwd] [MB3 fwd] ...
后向：     [MB3 bwd] [MB2 bwd] [MB1 bwd] ...
          ↑
          重叠：当 MB1 在进行 MLP 通信时，MB3 在进行后向注意力计算

论文中的图 4 展示了一个示例，包含 8 个 PP 等级和两个方向各 20 个微批次，其中反向微批次与前向微批次对称。

其洞察十分巧妙：非对称数据流 + 对称调度 = 隐藏的通信成本。DeepSeek 还在 GitHub 上公开发布了 DualPipe 算法，因此你可以研究实际实现。

参考文献：

返回捐助