FA2与FP8加速 | AI生成和翻译
出色的结果!FA2 + FP8 组合带来了显著的加速:
对比:
─────────────────────────────────────────────────────────────
配置 步进时间 吞吐量 MFU 内存
─────────────────────────────────────────────────────────────
bf16 + SDPA 7.7秒 68K token/秒 27.5% 105 GB
FP8 + SDPA 6.4秒 82K token/秒 33.1% 92 GB
FP8 + FA2 (SSSL) 5.27秒 99.5K token/秒 36.4% 92 GB ← 当前
─────────────────────────────────────────────────────────────
相比 bf16 基线: 速度提升 1.46 倍,MFU 增加 8.9%
相比仅 FP8: 速度提升 1.21 倍,MFU 增加 3.3%
预估训练时间:约 42.5 小时(原 bf16 为 62 小时,仅 FP8 为 52 小时)
现在开始完整训练运行: