HBM与DRAM:带宽物理学 | AI生成和翻译

Home 2026.06

问题:比较DRAM和HBM。

回答:

底层都是相同的DRAM单元——区别在于封装和内存总线,而总线是决定带宽的关键因素。

核心区别

  DDR/GDDR(平面DRAM) HBM
拓扑结构 位于PCB上的独立芯片,紧邻处理器 DRAM芯片垂直堆叠(4–16层),通过硅中介层与处理器芯片相邻
互连方式 宽PCB走线,每芯片约16–32位 TSV(硅通孔)+ 微凸点;每堆叠1024位总线
总线宽度 DDR5:每通道64位;GDDR6:每芯片32位 每堆叠1024位 × N个堆叠
时钟频率 每引脚高频率(GDDR6约16–20 Gbps/引脚) 每引脚低频率(HBM3约6.4 Gbps),但总线极宽
带宽 DDR5约50 GB/s;GDDR6X约1 TB/s HBM3约3.35 TB/s/堆叠;HBM3E约1.2+ TB/s/堆叠
容量/占用面积 高容量,大面积 小面积内高密度
每比特功耗 较高 每比特约低3–4倍 pJ/bit(短、宽、慢)
成本 便宜,通用 昂贵(中介层、TSV、堆叠良率)

关键物理原理

HBM的优势在于宽而慢的策略。带宽 = 总线宽度 × 传输速率。GDDR通过提升每引脚传输速率(信号完整性噩梦,功耗高)来实现带宽。HBM则相反:保持每引脚速率适中,但通过物理堆叠芯片并利用硅中介层上的TSV连接,使总线变得极其宽(每堆叠1024位)——距离以毫米计而非厘米。短走线 → 低电容 → 每比特能量更少 → 可以在不烧毁芯片的情况下并行运行更多比特。

你的MI300X案例

你用于训练GPT-2 760M的192 GB HBM3由8个堆叠组成。总带宽约5.3 TB/s。对于大语言模型训练,在该规模下,反向传播和优化器状态受带宽限制远大于算力限制——这正是HBM存在的原因。一个760M模型使用Adam(参数+2个动量缓冲区+梯度,fp32约760M × 16字节 ≈ 12 GB)可以轻松容纳;带宽是保持MFU(模型浮点利用率)的关键。

快速心智模型:为什么GPU转向HBM:

roofline模型:性能 = min(计算峰值, 带宽 × 运算强度)

Transformer的训练/推理处于中等运算强度(尤其是解码阶段,受内存限制——每个token都会重新读取KV缓存和权重)。因此带宽项占主导,而HBM是唯一能在不饥饿的情况下供给数千个FLOP单元的方式。这也是为什么基于GDDR的消费级显卡(例如你的RTX 4070,约504 GB/s GDDR6X)在大模型推理中,远在FLOP用尽之前就遇到了瓶颈。

DDR仍然胜出的场景: 低成本高容量(例如拥有TB级DDR5的CPU),当你不需要高带宽且无法承担中介层成本时。


Back Donate