HBM与DRAM：带宽物理学

HBM与DRAM：带宽物理学 | AI生成和翻译

首页 2026.06

问题：比较DRAM和HBM。

回答：

底层都是相同的DRAM单元——区别在于封装和内存总线，而总线是决定带宽的关键因素。

核心区别

	DDR/GDDR（平面DRAM）	HBM
拓扑结构	位于PCB上的独立芯片，紧邻处理器	DRAM芯片垂直堆叠（4–16层），通过硅中介层与处理器芯片相邻
互连方式	宽PCB走线，每芯片约16–32位	TSV（硅通孔）+ 微凸点；每堆叠1024位总线
总线宽度	DDR5：每通道64位；GDDR6：每芯片32位	每堆叠1024位 × N个堆叠
时钟频率	每引脚高频率（GDDR6约16–20 Gbps/引脚）	每引脚低频率（HBM3约6.4 Gbps），但总线极宽
带宽	DDR5约50 GB/s；GDDR6X约1 TB/s	HBM3约3.35 TB/s/堆叠；HBM3E约1.2+ TB/s/堆叠
容量/占用面积	高容量，大面积	小面积内高密度
每比特功耗	较高	每比特约低3–4倍 pJ/bit（短、宽、慢）
成本	便宜，通用	昂贵（中介层、TSV、堆叠良率）

关键物理原理

HBM的优势在于宽而慢的策略。带宽 = 总线宽度 × 传输速率。GDDR通过提升每引脚传输速率（信号完整性噩梦，功耗高）来实现带宽。HBM则相反：保持每引脚速率适中，但通过物理堆叠芯片并利用硅中介层上的TSV连接，使总线变得极其宽（每堆叠1024位）——距离以毫米计而非厘米。短走线 → 低电容 → 每比特能量更少 → 可以在不烧毁芯片的情况下并行运行更多比特。

你的MI300X案例

你用于训练GPT-2 760M的192 GB HBM3由8个堆叠组成。总带宽约5.3 TB/s。对于大语言模型训练，在该规模下，反向传播和优化器状态受带宽限制远大于算力限制——这正是HBM存在的原因。一个760M模型使用Adam（参数+2个动量缓冲区+梯度，fp32约760M × 16字节 ≈ 12 GB）可以轻松容纳；带宽是保持MFU（模型浮点利用率）的关键。

快速心智模型：为什么GPU转向HBM：

roofline模型：性能 = min(计算峰值, 带宽 × 运算强度)

Transformer的训练/推理处于中等运算强度（尤其是解码阶段，受内存限制——每个token都会重新读取KV缓存和权重）。因此带宽项占主导，而HBM是唯一能在不饥饿的情况下供给数千个FLOP单元的方式。这也是为什么基于GDDR的消费级显卡（例如你的RTX 4070，约504 GB/s GDDR6X）在大模型推理中，远在FLOP用尽之前就遇到了瓶颈。

DDR仍然胜出的场景： 低成本高容量（例如拥有TB级DDR5的CPU），当你不需要高带宽且无法承担中介层成本时。

返回捐助