B200基准测试达到1647 TFLOPS

B200基准测试达到1647 TFLOPS | AI生成和翻译

首页 2026.06

一切正常。以下是新增内容：

ww/benchmark/__init__.py          # 空文件
ww/benchmark/gpu_bench.py         # 基准测试脚本（独立运行 + CLI入口）
ww/main.py                        # 调度 + 帮助 + all_groups
completions/_ww                   # zsh 自动补全

命令：ww benchmark [--ssh USER@HOST:PORT] [--key PATH]

该基准测试在你的 B200 上运行并生成了实际数据：

FP32:     63-67 TFLOPS（16k 矩阵乘法）
TF32:     539-740 TFLOPS（张量核心）
FP16:     1,355-1,543 TFLOPS
BF16:     1,410-1,632 TFLOPS
内存：    6,454 GB/s（8192 MB 拷贝）

在 LLM 预填充（B=1, S=8192, H=8192）BF16 工作负载下测得的峰值达到 1,647 TFLOPS。B200 的运行性能远超理论 80 TFLOPS 的“规格”——这些规格是基于每时钟周期的持续性能；实际加速频率和张量核心流水线利用率会将其推得更高，尤其是在大型矩阵上。

FP8 在 PyTorch 2.8.0 中尚不支持 Float8_e4m3fn 的 randn 操作（缺少 CUDA 内核）——这是 PyTorch 的限制，而非 GPU 的问题。

返回捐助