NVIDIA Rubin与Blackwell架构对比 | AI生成和翻译
问题: 即将推出的NVIDIA Rubin AI平台与Blackwell在架构和生产要求方面有何不同?
答案:
NVIDIA的架构路线图已从Blackwell平台(当前的企业级主力产品)转向新近量产的Vera Rubin平台(计划于2026年底在超大规模云平台部署)。Blackwell专注于通过双芯片拼接实现原始规模扩展,而Rubin则代表了专为代理式AI(执行复杂多步骤任务的深度推理工作负载)设计的根本性飞跃。
Blackwell与Rubin之间的差异既体现在物理架构上,也体现在它们对台积电制造生态系统带来的巨大压力上。
1. 架构差异
从Blackwell到Rubin的转变,通过打破“内存墙”并改变处理器布局,彻底改变了AI计算的计算方式。
| 特性 | Blackwell (B200 / B300) | Rubin (R100) | 架构飞跃 |
|---|---|---|---|
| 计算性能 | 9至10 PFLOPS (FP4) | 50 PFLOPS (FP4) | 采用第三代Transformer引擎,吞吐量提升5倍。 |
| 内存技术 | HBM3e | HBM4 | 转向原生12-Hi垂直堆叠标准。 |
| 内存带宽 | 8 TB/s | 22 TB/s | 带宽提升近3倍,可无延迟地向处理核心输送数据。 |
| 互连技术 | NVLink 5 (1.8 TB/s) | NVLink 6 (3.6 TB/s) | GPU间通信带宽翻倍,对大型混合专家(MoE)模型至关重要。 |
| 配套CPU | Grace CPU (基于ARM) | Vera CPU | 配备88个定制的Olympus ARM内核和1.5 TB的片上LPDDR5X内存。 |
小芯片布局的转变
Blackwell依赖于在高速互连上平坦地拼接两个相同芯片的单片式设计。Rubin则引入了多工艺节点的小芯片设计。
- 核心计算逻辑采用先进的台积电3nm架构制造。
- 强度较低的输入/输出(I/O)逻辑则分离到更具成本效益的5nm小芯片上。
- 这种混合节点策略在最重要的地方最大化计算密度,同时控制整体制造成本。
2. 生产与半导体要求
制造Rubin需要台积电采用完全不同的制造方案,迫使先进封装技术快速发展。
从2.5D CoWoS到3D垂直堆叠(SoIC)
Blackwell基于台积电的4NP节点,并依赖于2.5D CoWoS-L封装(将芯片与内存并排放置在基板上)。
由于Rubin密度极高,平坦布局会使芯片物理尺寸过大,导致在制造过程中发生翘曲或破裂。为了绕过这个“光罩尺寸限制”,台积电在Rubin上采用了SoIC(集成片上系统)技术。这使得3D垂直堆叠成为可能——在通过CoWoS连接外部HBM4内存堆栈之前,直接将部分计算逻辑堆叠在一起。
HBM4良率挑战
Blackwell使用了成熟的HBM3e内存。Rubin是首个采用HBM4的平台,它使用了一个定制的逻辑基础芯片,该芯片必须由台积电而非内存供应商(如SK海力士或美光)直接制造。由于集成12-Hi内存层的复杂性,良率问题最初迫使NVIDIA将其即将推出的“Rubin Ultra”版本从传闻中的4芯片布局缩减为更安全的2芯片布局,以确保大规模生产的可行性。
3nm节点的关键拥挤情况
虽然Blackwell可以安全地消耗台积电高度优化的4nm产能,但Rubin严重依赖台积电3nm(N3P)节点。市场数据显示,AI应用将占据台积电3nm总产能约36%的份额,由于NVIDIA与构建定制芯片(如谷歌的TPU v7/v8和亚马逊的Trainium v3)的超大规模云厂商争夺产能分配,这将造成重大的供应链瓶颈。
3. 数据中心基础设施要求
这些差异不仅限于硅片本身,还延伸到了数据中心的物理空间。
- 功耗墙: 标准Blackwell机架(NVL72)功耗高达120kW。相应的Vera Rubin NVL72机架预计功耗将翻倍。
- 45°C热水冷却: 由于风扇无法再冷却如此密集的系统,Rubin引入了单相直接液体冷却(DLC)技术,该技术可用高达45°C(113°F)的温水运行。这完全消除了对大型机械制冷机的需求,使Rubin机架内部完全无风扇、无管道——但这意味着Rubin无法部署在传统的风冷数据中心中。
参考文献:
- NVIDIA Rubin架构深度解析:5000亿美元AI超级周期 - ServerMO
- NVIDIA Rubin GPU:工艺与封装技术的进步 - Semicon
- 受封装限制 NVIDIA Rubin Ultra被视为坚持双芯片设计 - TrendForce
- NVIDIA Vera Rubin全面量产 为全球代理式AI工厂提供动力 - NVIDIA新闻