NVIDIA Rubin与Blackwell架构对比 | AI生成和翻译

Home 2026.06

问题: 即将推出的NVIDIA Rubin AI平台与Blackwell在架构和生产要求方面有何不同?

答案:

NVIDIA的架构路线图已从Blackwell平台(当前的企业级主力产品)转向新近量产的Vera Rubin平台(计划于2026年底在超大规模云平台部署)。Blackwell专注于通过双芯片拼接实现原始规模扩展,而Rubin则代表了专为代理式AI(执行复杂多步骤任务的深度推理工作负载)设计的根本性飞跃。

Blackwell与Rubin之间的差异既体现在物理架构上,也体现在它们对台积电制造生态系统带来的巨大压力上。


1. 架构差异

从Blackwell到Rubin的转变,通过打破“内存墙”并改变处理器布局,彻底改变了AI计算的计算方式。

特性 Blackwell (B200 / B300) Rubin (R100) 架构飞跃
计算性能 9至10 PFLOPS (FP4) 50 PFLOPS (FP4) 采用第三代Transformer引擎,吞吐量提升5倍。
内存技术 HBM3e HBM4 转向原生12-Hi垂直堆叠标准。
内存带宽 8 TB/s 22 TB/s 带宽提升近3倍,可无延迟地向处理核心输送数据。
互连技术 NVLink 5 (1.8 TB/s) NVLink 6 (3.6 TB/s) GPU间通信带宽翻倍,对大型混合专家(MoE)模型至关重要。
配套CPU Grace CPU (基于ARM) Vera CPU 配备88个定制的Olympus ARM内核和1.5 TB的片上LPDDR5X内存。

小芯片布局的转变

Blackwell依赖于在高速互连上平坦地拼接两个相同芯片的单片式设计。Rubin则引入了多工艺节点的小芯片设计


2. 生产与半导体要求

制造Rubin需要台积电采用完全不同的制造方案,迫使先进封装技术快速发展。

从2.5D CoWoS到3D垂直堆叠(SoIC)

Blackwell基于台积电的4NP节点,并依赖于2.5D CoWoS-L封装(将芯片与内存并排放置在基板上)。

由于Rubin密度极高,平坦布局会使芯片物理尺寸过大,导致在制造过程中发生翘曲或破裂。为了绕过这个“光罩尺寸限制”,台积电在Rubin上采用了SoIC(集成片上系统)技术。这使得3D垂直堆叠成为可能——在通过CoWoS连接外部HBM4内存堆栈之前,直接将部分计算逻辑堆叠在一起。

HBM4良率挑战

Blackwell使用了成熟的HBM3e内存。Rubin是首个采用HBM4的平台,它使用了一个定制的逻辑基础芯片,该芯片必须由台积电而非内存供应商(如SK海力士或美光)直接制造。由于集成12-Hi内存层的复杂性,良率问题最初迫使NVIDIA将其即将推出的“Rubin Ultra”版本从传闻中的4芯片布局缩减为更安全的2芯片布局,以确保大规模生产的可行性。

3nm节点的关键拥挤情况

虽然Blackwell可以安全地消耗台积电高度优化的4nm产能,但Rubin严重依赖台积电3nm(N3P)节点。市场数据显示,AI应用将占据台积电3nm总产能约36%的份额,由于NVIDIA与构建定制芯片(如谷歌的TPU v7/v8和亚马逊的Trainium v3)的超大规模云厂商争夺产能分配,这将造成重大的供应链瓶颈。


3. 数据中心基础设施要求

这些差异不仅限于硅片本身,还延伸到了数据中心的物理空间。

参考文献:


Back Donate