为何互连带宽很重要 | AI生成和翻译

Home 2026.06

问题: 为什么互连如此重要?为什么Marvell擅长互连带宽?SK海力士也做带宽——NVLink会使用Marvell吗?

回答:

这里混淆了三件不同的事情,让我们从基本原理来梳理。你把内存带宽(SK海力士的层面)和网络互连(Marvell的层面)混为一谈,而NVLink介于两者之间。它们都在“传输比特”,但物理距离不同,每个距离上的物理特性决定了谁能参与其中。

1. 为什么互连是瓶颈——数学分析

训练大模型本质上是一个伪装成计算问题的通信问题。以数据并行训练为例:每一步,每个GPU都必须对梯度进行全规约。对于环形全规约,每个GPU发送/接收:

# 每步每个GPU的通信量(环形全规约)
P = 70e9            # 参数数量(70B模型)
bytes_per_grad = 2  # bf16
N = 1024            # GPU数量

vol = 2 * (N - 1) / N * P * bytes_per_grad   # ≈ 每步每个GPU 280 GB!

# 在400 Gbps(50 GB/s)网络下:每步纯通信时间 = 280/50 = 5.6秒。
# 一块B200完成该步的计算时间远小于1秒。
# => GPU空闲等待网络。FLOPs是免费的,字节不是。

这就是为什么人们如此关注重叠(与反向传播并行的分段梯度全规约——你在nanoGPT的DDP中见过这一点),以及为什么前沿实验室在网络架构上的投入与GPU相当。随着集群从10k → 100k → 1百万加速器扩展,计算线性增长,但通信模式(MoE中的全对全、张量并行的全收集)扩展性更差。互连带宽、光网络集成和机架级异构计算现在与原始性能一样重要,决定着谁能赢得基础设施订单。

按距离划分的带宽层级:

层级 距离 技术 硅片制造商
HBM 毫米级(封装内) 通过中介层的DRAM堆叠,~8 TB/s SK海力士、三星、美光
纵向扩展(NVLink) <1米–机架 铜缆SerDes、NVSwitch,~1.8 TB/s/GPU 英伟达(专有)
横向扩展网络 3米–500米 800G/1.6T光收发器 Marvell、博通(内部的DSP)
DCI 公里–100公里 相干光模块(400ZR/800ZR) Marvell(前Inphi)、思科/Acacia

关键物理事实: 铜缆在距离面前失效。在112G/224G每通道速率下,无源铜缆只能延伸几米,之后信号完整性就会崩溃。超出机架范围,每条链路都是光链路——而每个光模块都需要一颗DSP芯片进行PAM4调制、均衡和时钟恢复。这个DSP市场基本上是Marvell/博通的双头垄断。在10万GPU集群中的每个1.6T收发器都包含它们的一颗芯片。数一数NVL72部署中的收发器数量,你就会明白为什么这是一个价值数十亿美元的年金业务。

2. 为什么特别提到Marvell

他们的护城河是高速模拟混合信号设计——半导体领域中最难、最不易商品化的技能:

此外,SerDes/光学专业知识也滋养了XPU业务:Marvell的光学专长是客户对其XPU设计感兴趣的驱动因素——如果定制加速器的芯片边缘带宽跟不上,它就毫无用处,因此超大规模客户从同一供应商处购买I/O和芯片设计。

3. SK海力士——完全不同的层面

SK海力士与Marvell完全没有竞争关系。HBM是内存带宽:使用TSV堆叠的DRAM芯片,位于CoWoS中介层上离计算芯片毫米之处,为张量核心提供数据。它解决了“我的矩阵乘法能否足够快地读取权重”的问题(算术强度/计算上限)。Marvell解决的是“GPU #4071能否从GPU #88213获取梯度”的问题。两者都是带宽,但一个是内存技术,另一个是网络/信号技术。SK海力士将HBM堆栈卖给英伟达和Marvell的XPU客户——它们互补,而非竞争。

4. NVLink使用Marvell吗?

NVLink本身:不。 NVLink和NVSwitch是英伟达自己的专有SerDes、协议和交换芯片——内部设计,台积电代工。完全没有Marvell的内容。

但关系在2026年3月发生了变化。 英伟达向Marvell投资了20亿美元,并建立了以NVLink Fusion为中心的战略合作伙伴关系,这是一个机架级平台,允许第三方芯片直接接入英伟达的专有互连架构。分工如下:Marvell提供定制XPU和兼容NVLink Fusion的纵向扩展网络,而英伟达提供Vera CPU、ConnectX网卡、BlueField DPU、NVLink互连和Spectrum-X交换机。因此,Marvell设计的芯片现在可以NVLink语言——例如,AWS已表示未来的Trainium 4将同时支持UALink和NVLink协议,而作为AWS主要的定制芯片合作伙伴,Marvell需要访问英伟达的技术来实现这一点。

战略解读很犀利:Marvell的定制XPU业务在2026财年实现了15亿美元收入,预计到2028财年将翻倍,目前有18个活跃的定制芯片项目,其中12个来自亚马逊、谷歌、微软和Meta——这些芯片的存在是为了取代英伟达GPU。通过将Marvell拉入NVLink Fusion,每个NVLink Fusion设置至少需要一个英伟达部件,因此Marvell的ASIC仍能为英伟达创造收入,而博通则领导着UALink(NVLink的开放替代方案),处于架构战的另一方。

TL;DR: SK海力士 = 进入芯片的带宽(HBM)。英伟达 = 机架内的带宽(NVLink)。Marvell = 机架之间和建筑之间的带宽(光DSP、SerDes、光子)——再加上,自2026年3月起,获得了将NVLink端口放置在其设计的定制芯片上的许可入口。

如果你想在代码中直观感受这一点,可以在多节点nanoGPT运行中设置NCCL_DEBUG=INFO,观察随着节点扩展,AllReduce与计算相比占用了多少挂钟时间——Marvell的整个论点就在这个比值中。

参考文献:


Back Donate