艾达的二级缓存革命 | AI生成和翻译
问题:关于NVIDIA的Ada Lovelace GPU架构,有哪些鲜为人知或不为人知的事实?
答案:
最被低估的事实:Ada Lovelace(AD10x)的L2缓存相比Ampere大幅增加,这才是真正的架构故事,而非原始计算能力。
AD102芯片的L2缓存从GA102的6 MB跃升至98 MB——提升了约16倍。这直接复制了AMD的“Infinity Cache”策略,也默默承认了GDDR6X带宽的增长速度不够快。4090的内存总线(384-bit)实际上比其定位预期的更窄,而巨大的缓存掩盖了这一点。对于你的推理工作来说,这一点很重要:当工作集在缓存内时,Ada的有效带宽远优于规格表上1 TB/s的表现,但一旦你的KV缓存加权重超过L2,性能就会断崖式下跌。
其他真正冷门的事实:
-
Ada上存在FP8(E4M3/E5M2)张量核心,但软件层面相比Hopper被限制了。 Ada的第四代张量核心支持FP8,但NVIDIA将全速率的FP8带FP32累加以及Transformer Engine的完整功能集留给了Hopper。在消费级Ada上,你能得到FP8矩阵乘法,但Transformer Engine的路径被削弱了——如果你在用4090和H100对比训练性能,这点很相关。
-
Ada没有NVLink。 就连4090也去掉了3090上配备的NVLink接口。这是故意的市场细分,旨在将多GPU训练用户推向H100/数据中心SKU。对于你的双GPU实验,4090只能通过PCIe对等通信。
-
“AD102几乎未被充分使用”这一事实。 4090搭载的AD102被大幅削减——144个SM中仅启用了128个。完整芯片从未出现在消费级显卡中;它被留给了RTX 6000 Ada / L40。因此,这一代最强大的游戏GPU实际上是一个次品芯片。
-
SER(着色器执行重排序) 被宣传用于光线追踪,但它其实是一种用于发散工作负载的通用延迟隐藏机制——在图形领域之外几乎无人讨论。
-
Ada的张量核心新增了FP8但未移除任何东西——然而稀疏性(2:4结构化)仍然几乎未被使用,因为主流训练框架无法可靠地利用它,这使得一半的“稀疏TFLOPS”营销数字在实践中毫无意义。
对于你的4070(AD104,36 MB L2,12 GB):缓存的故事解释了为什么它在小模型上能超越其带宽等级的表现,但一旦模型超出约10 GB就会卡住。
参考文献:
(注意:我没有进行实时搜索——这些内容来自已发布的白皮书和架构报道。如果你希望我根据来源验证每个芯片的具体SM/缓存数量,我可以进行搜索。)