NVIDIA Rubin与Blackwell架构对比

NVIDIA Rubin与Blackwell架构对比 | AI生成和翻译

首页 2026.06

问题： 即将推出的NVIDIA Rubin AI平台与Blackwell在架构和生产要求方面有何不同？

答案：

NVIDIA的架构路线图已从Blackwell平台（当前的企业级主力产品）转向新近量产的Vera Rubin平台（计划于2026年底在超大规模云平台部署）。Blackwell专注于通过双芯片拼接实现原始规模扩展，而Rubin则代表了专为代理式AI（执行复杂多步骤任务的深度推理工作负载）设计的根本性飞跃。

Blackwell与Rubin之间的差异既体现在物理架构上，也体现在它们对台积电制造生态系统带来的巨大压力上。

1. 架构差异

从Blackwell到Rubin的转变，通过打破“内存墙”并改变处理器布局，彻底改变了AI计算的计算方式。

特性	Blackwell (B200 / B300)	Rubin (R100)	架构飞跃
计算性能	9至10 PFLOPS (FP4)	50 PFLOPS (FP4)	采用第三代Transformer引擎，吞吐量提升5倍。
内存技术	HBM3e	HBM4	转向原生12-Hi垂直堆叠标准。
内存带宽	8 TB/s	22 TB/s	带宽提升近3倍，可无延迟地向处理核心输送数据。
互连技术	NVLink 5 (1.8 TB/s)	NVLink 6 (3.6 TB/s)	GPU间通信带宽翻倍，对大型混合专家（MoE）模型至关重要。
配套CPU	Grace CPU (基于ARM)	Vera CPU	配备88个定制的Olympus ARM内核和1.5 TB的片上LPDDR5X内存。

小芯片布局的转变

Blackwell依赖于在高速互连上平坦地拼接两个相同芯片的单片式设计。Rubin则引入了多工艺节点的小芯片设计。

核心计算逻辑采用先进的台积电3nm架构制造。
强度较低的输入/输出（I/O）逻辑则分离到更具成本效益的5nm小芯片上。
这种混合节点策略在最重要的地方最大化计算密度，同时控制整体制造成本。

2. 生产与半导体要求

制造Rubin需要台积电采用完全不同的制造方案，迫使先进封装技术快速发展。

从2.5D CoWoS到3D垂直堆叠（SoIC）

Blackwell基于台积电的4NP节点，并依赖于2.5D CoWoS-L封装（将芯片与内存并排放置在基板上）。

由于Rubin密度极高，平坦布局会使芯片物理尺寸过大，导致在制造过程中发生翘曲或破裂。为了绕过这个“光罩尺寸限制”，台积电在Rubin上采用了SoIC（集成片上系统）技术。这使得3D垂直堆叠成为可能——在通过CoWoS连接外部HBM4内存堆栈之前，直接将部分计算逻辑堆叠在一起。

HBM4良率挑战

Blackwell使用了成熟的HBM3e内存。Rubin是首个采用HBM4的平台，它使用了一个定制的逻辑基础芯片，该芯片必须由台积电而非内存供应商（如SK海力士或美光）直接制造。由于集成12-Hi内存层的复杂性，良率问题最初迫使NVIDIA将其即将推出的“Rubin Ultra”版本从传闻中的4芯片布局缩减为更安全的2芯片布局，以确保大规模生产的可行性。

3nm节点的关键拥挤情况

虽然Blackwell可以安全地消耗台积电高度优化的4nm产能，但Rubin严重依赖台积电3nm（N3P）节点。市场数据显示，AI应用将占据台积电3nm总产能约36%的份额，由于NVIDIA与构建定制芯片（如谷歌的TPU v7/v8和亚马逊的Trainium v3）的超大规模云厂商争夺产能分配，这将造成重大的供应链瓶颈。

3. 数据中心基础设施要求

这些差异不仅限于硅片本身，还延伸到了数据中心的物理空间。

功耗墙： 标准Blackwell机架（NVL72）功耗高达120kW。相应的Vera Rubin NVL72机架预计功耗将翻倍。
45°C热水冷却： 由于风扇无法再冷却如此密集的系统，Rubin引入了单相直接液体冷却（DLC）技术，该技术可用高达45°C（113°F）的温水运行。这完全消除了对大型机械制冷机的需求，使Rubin机架内部完全无风扇、无管道——但这意味着Rubin无法部署在传统的风冷数据中心中。

参考文献：

返回捐助