昇腾 910B 与 NVIDIA H100 的对比测试 | AI生成和翻译

Home 2026.03

Question: 8,192 颗 Huawei Ascend 910B NPU 组成的集群有多强大?它能否与 8,192 颗 NVIDIA H100 GPU 集群相媲美?

Answer:

单芯片对比:Ascend 910B vs NVIDIA H100

首先,让我们建立单颗芯片的基准:

Metric Ascend 910B NVIDIA H100
FP16 Compute ~320 TFLOPS ~989 TFLOPS
Memory 64 GB HBM2e 80 GB HBM3
Memory Bandwidth ~400–1,200 GB/s (variant) ~3,350 GB/s
Process Node SMIC 7nm (N+1) TSMC 4nm
TDP ~400W ~700W

Ascend 910B 的 FP16 计算能力约为 320 TFLOPS,INT8 计算能力约为 640 TOPS,配备 64 GB HBM2e Memory,Memory Bandwidth 为 400 GB/s。推出的 910B3 变体引入了 HBM3e Memory,Bandwidth 达到 1.2 TB/s。

NVIDIA H100 提供 989.5 FP16 TFLOPS,这大约是 A100(312 TFLOPS)性能的三倍。

简而言之,在原生 FP16 Compute 方面,一颗 H100 的性能大约是一颗 910B 的 3 倍


8,192 颗芯片集群:原始数据

Metric 8,192 × Ascend 910B 8,192 × NVIDIA H100
Total FP16 TFLOPS ~2,621 PFLOPS (~2.6 EFLOPS) ~8,110 PFLOPS (~8.1 EFLOPS)
Total Memory ~524 TB ~655 TB

因此,在理论峰值 FP16 Compute 方面:


Huawei Atlas 950 SuperPoD:真正的 8,192 芯片系统

有趣的是,Huawei 正在构建这种规模的系统。Huawei 计划推出 Atlas 950 SuperPoD,连接 8,192 颗 Ascend 芯片,以提供 8 EFLOPS 的 FP8 性能,并辅以 1,152 TB 的 Memory 和 16.3 PB/s 的 Interconnect 带宽。请注意,8 EFLOPS 是针对 FP8 精度(通常用于 Inference 的较低精度),而不是上面使用的 FP16 数据——因此它与 H100 的 FP16 数据没有直接可比性。


为什么不能只看原始 TFLOPS

除了原始算力之外,还有几个因素进一步拉大了差距:

1. Memory Bandwidth 差距 910C 的带宽瓶颈(1,800 vs 3,350 GB/s)是 LLM Inference 中自回归 Decode 阶段的主要限制因素,该阶段主要受 Memory 读取支配。910B 的带宽更低,约为 400 GB/s,这是一个显著的劣势。

2. Interconnect 910B 的 HCCS Interconnect 在 8 卡模块中的总带宽为 392 GB/s,与 A800 的 NVLink(400 GB/s)基本相当。然而,针对 H100 集群的 NVIDIA NVLink 技术要先进得多,能够实现更高效的多 GPU 扩展。

3. 软件生态 (CUDA vs CANN) 使用 Ascend 910B 芯片仍需在缺乏社区支持的情况下进行 Debug。任何公共模型都必须在 Huawei 平台上运行前经过其深度优化,而这一优化过程高度依赖 Huawei,且进展缓慢。这意味着 910B 集群的实际利用率较低。

4. 训练可靠性 (Training Reliability) 长期训练的可靠性是中国处理器的关键弱点。这一挑战源于 NVIDIA 软硬件生态系统长达二十年的深度整合。


结论:8,192 × 910B 是否等同于 8,192 × H100?

不,差距依然显著。 总结如下:

核心结论: 你需要大约 3 倍数量的 Ascend 910B(约 24,000+ 颗)才能达到 8,192 颗 H100 的同等原始算力,即便如此,由于软件和互连的限制,实际的 Training 性能可能依然落后。


References:


Back Donate