昇腾 910B 与 NVIDIA H100 的对比测试 | AI生成和翻译
Question: 8,192 颗 Huawei Ascend 910B NPU 组成的集群有多强大?它能否与 8,192 颗 NVIDIA H100 GPU 集群相媲美?
Answer:
单芯片对比:Ascend 910B vs NVIDIA H100
首先,让我们建立单颗芯片的基准:
| Metric | Ascend 910B | NVIDIA H100 |
|---|---|---|
| FP16 Compute | ~320 TFLOPS | ~989 TFLOPS |
| Memory | 64 GB HBM2e | 80 GB HBM3 |
| Memory Bandwidth | ~400–1,200 GB/s (variant) | ~3,350 GB/s |
| Process Node | SMIC 7nm (N+1) | TSMC 4nm |
| TDP | ~400W | ~700W |
Ascend 910B 的 FP16 计算能力约为 320 TFLOPS,INT8 计算能力约为 640 TOPS,配备 64 GB HBM2e Memory,Memory Bandwidth 为 400 GB/s。推出的 910B3 变体引入了 HBM3e Memory,Bandwidth 达到 1.2 TB/s。
NVIDIA H100 提供 989.5 FP16 TFLOPS,这大约是 A100(312 TFLOPS)性能的三倍。
简而言之,在原生 FP16 Compute 方面,一颗 H100 的性能大约是一颗 910B 的 3 倍。
8,192 颗芯片集群:原始数据
| Metric | 8,192 × Ascend 910B | 8,192 × NVIDIA H100 |
|---|---|---|
| Total FP16 TFLOPS | ~2,621 PFLOPS (~2.6 EFLOPS) | ~8,110 PFLOPS (~8.1 EFLOPS) |
| Total Memory | ~524 TB | ~655 TB |
因此,在理论峰值 FP16 Compute 方面:
- 8,192 颗 H100s ≈ 比 8,192 颗 Ascend 910Bs 强大 3 倍。
Huawei Atlas 950 SuperPoD:真正的 8,192 芯片系统
有趣的是,Huawei 正在构建这种规模的系统。Huawei 计划推出 Atlas 950 SuperPoD,连接 8,192 颗 Ascend 芯片,以提供 8 EFLOPS 的 FP8 性能,并辅以 1,152 TB 的 Memory 和 16.3 PB/s 的 Interconnect 带宽。请注意,8 EFLOPS 是针对 FP8 精度(通常用于 Inference 的较低精度),而不是上面使用的 FP16 数据——因此它与 H100 的 FP16 数据没有直接可比性。
为什么不能只看原始 TFLOPS
除了原始算力之外,还有几个因素进一步拉大了差距:
1. Memory Bandwidth 差距 910C 的带宽瓶颈(1,800 vs 3,350 GB/s)是 LLM Inference 中自回归 Decode 阶段的主要限制因素,该阶段主要受 Memory 读取支配。910B 的带宽更低,约为 400 GB/s,这是一个显著的劣势。
2. Interconnect 910B 的 HCCS Interconnect 在 8 卡模块中的总带宽为 392 GB/s,与 A800 的 NVLink(400 GB/s)基本相当。然而,针对 H100 集群的 NVIDIA NVLink 技术要先进得多,能够实现更高效的多 GPU 扩展。
3. 软件生态 (CUDA vs CANN) 使用 Ascend 910B 芯片仍需在缺乏社区支持的情况下进行 Debug。任何公共模型都必须在 Huawei 平台上运行前经过其深度优化,而这一优化过程高度依赖 Huawei,且进展缓慢。这意味着 910B 集群的实际利用率较低。
4. 训练可靠性 (Training Reliability) 长期训练的可靠性是中国处理器的关键弱点。这一挑战源于 NVIDIA 软硬件生态系统长达二十年的深度整合。
结论:8,192 × 910B 是否等同于 8,192 × H100?
不,差距依然显著。 总结如下:
- 在 原始 FP16 Compute 方面,8,192 颗 H100s (~8.1 EFLOPS) 大约比 8,192 颗 Ascend 910Bs (~2.6 EFLOPS) 强大 3 倍。
- 在 实际 AI Training 工作负载 中,由于优越的 Memory Bandwidth、NVLink Interconnect、软件成熟度(CUDA 生态)以及 Training 稳定性,H100 的领先优势可能更大。
- 尤其在 Inference 方面,差距有所缩小。DeepSeek 的测试显示,910C(由两个 910B 组合而成)在 Inference 性能上超出了预期,达到了 H100 推理吞吐量的 60% 左右。单个 910B 的表现会进一步降低。
- Huawei 的补偿策略是“以量取胜”——虽然单芯片性能可能不具竞争力,但通过系统层面的创新并组建更大规模的集群,有可能部分弥补差距并满足算力需求。
核心结论: 你需要大约 3 倍数量的 Ascend 910B(约 24,000+ 颗)才能达到 8,192 颗 H100 的同等原始算力,即便如此,由于软件和互连的限制,实际的 Training 性能可能依然落后。
References:
- Huawei Ascend 910B & 910C Overview – Medium/Huawei Cloud
- DeepSeek: 910C delivers 60% of H100 inference – Tom’s Hardware
- Atlas 950 SuperPoD 8,192 chip cluster – Recode China AI
- CSET: Huawei Ascend 910B chip analysis
- Ascend 910C vs H100 deep dive – Awesome Agents