昇腾 910B 与 NVIDIA H100 的对比测试

昇腾 910B 与 NVIDIA H100 的对比测试 | AI生成和翻译

Home 2026.03

Question: 8,192 颗 Huawei Ascend 910B NPU 组成的集群有多强大？它能否与 8,192 颗 NVIDIA H100 GPU 集群相媲美？

Answer:

单芯片对比：Ascend 910B vs NVIDIA H100

首先，让我们建立单颗芯片的基准：

Metric	Ascend 910B	NVIDIA H100
FP16 Compute	~320 TFLOPS	~989 TFLOPS
Memory	64 GB HBM2e	80 GB HBM3
Memory Bandwidth	~400–1,200 GB/s (variant)	~3,350 GB/s
Process Node	SMIC 7nm (N+1)	TSMC 4nm
TDP	~400W	~700W

Ascend 910B 的 FP16 计算能力约为 320 TFLOPS，INT8 计算能力约为 640 TOPS，配备 64 GB HBM2e Memory，Memory Bandwidth 为 400 GB/s。推出的 910B3 变体引入了 HBM3e Memory，Bandwidth 达到 1.2 TB/s。

NVIDIA H100 提供 989.5 FP16 TFLOPS，这大约是 A100（312 TFLOPS）性能的三倍。

简而言之，在原生 FP16 Compute 方面，一颗 H100 的性能大约是一颗 910B 的 3 倍。

8,192 颗芯片集群：原始数据

Metric	8,192 × Ascend 910B	8,192 × NVIDIA H100
Total FP16 TFLOPS	~2,621 PFLOPS (~2.6 EFLOPS)	~8,110 PFLOPS (~8.1 EFLOPS)
Total Memory	~524 TB	~655 TB

因此，在理论峰值 FP16 Compute 方面：

8,192 颗 H100s ≈ 比 8,192 颗 Ascend 910Bs 强大 3 倍。

Huawei Atlas 950 SuperPoD：真正的 8,192 芯片系统

有趣的是，Huawei 正在构建这种规模的系统。Huawei 计划推出 Atlas 950 SuperPoD，连接 8,192 颗 Ascend 芯片，以提供 8 EFLOPS 的 FP8 性能，并辅以 1,152 TB 的 Memory 和 16.3 PB/s 的 Interconnect 带宽。请注意，8 EFLOPS 是针对 FP8 精度（通常用于 Inference 的较低精度），而不是上面使用的 FP16 数据——因此它与 H100 的 FP16 数据没有直接可比性。

为什么不能只看原始 TFLOPS

除了原始算力之外，还有几个因素进一步拉大了差距：

1. Memory Bandwidth 差距 910C 的带宽瓶颈（1,800 vs 3,350 GB/s）是 LLM Inference 中自回归 Decode 阶段的主要限制因素，该阶段主要受 Memory 读取支配。910B 的带宽更低，约为 400 GB/s，这是一个显著的劣势。

2. Interconnect 910B 的 HCCS Interconnect 在 8 卡模块中的总带宽为 392 GB/s，与 A800 的 NVLink（400 GB/s）基本相当。然而，针对 H100 集群的 NVIDIA NVLink 技术要先进得多，能够实现更高效的多 GPU 扩展。

3. 软件生态 (CUDA vs CANN) 使用 Ascend 910B 芯片仍需在缺乏社区支持的情况下进行 Debug。任何公共模型都必须在 Huawei 平台上运行前经过其深度优化，而这一优化过程高度依赖 Huawei，且进展缓慢。这意味着 910B 集群的实际利用率较低。

4. 训练可靠性 (Training Reliability) 长期训练的可靠性是中国处理器的关键弱点。这一挑战源于 NVIDIA 软硬件生态系统长达二十年的深度整合。

结论：8,192 × 910B 是否等同于 8,192 × H100？

不，差距依然显著。 总结如下：

在 原始 FP16 Compute 方面，8,192 颗 H100s (~8.1 EFLOPS) 大约比 8,192 颗 Ascend 910Bs (~2.6 EFLOPS) 强大 3 倍。
在 实际 AI Training 工作负载 中，由于优越的 Memory Bandwidth、NVLink Interconnect、软件成熟度（CUDA 生态）以及 Training 稳定性，H100 的领先优势可能更大。
尤其在 Inference 方面，差距有所缩小。DeepSeek 的测试显示，910C（由两个 910B 组合而成）在 Inference 性能上超出了预期，达到了 H100 推理吞吐量的 60% 左右。单个 910B 的表现会进一步降低。
Huawei 的补偿策略是“以量取胜”——虽然单芯片性能可能不具竞争力，但通过系统层面的创新并组建更大规模的集群，有可能部分弥补差距并满足算力需求。

核心结论： 你需要大约 3 倍数量的 Ascend 910B（约 24,000+ 颗）才能达到 8,192 颗 H100 的同等原始算力，即便如此，由于软件和互连的限制，实际的 Training 性能可能依然落后。

References:

Back Donate