FA2与FP8加速 | AI生成和翻译

Home 2026.06

出色的结果!FA2 + FP8 组合带来了显著的加速:

  对比:
  ─────────────────────────────────────────────────────────────
  配置                步进时间  吞吐量        MFU     内存
  ─────────────────────────────────────────────────────────────
  bf16 + SDPA         7.7秒     68K token/秒  27.5%   105 GB
  FP8 + SDPA          6.4秒     82K token/秒  33.1%   92 GB
  FP8 + FA2 (SSSL)    5.27秒    99.5K token/秒 36.4%   92 GB  ← 当前
  ─────────────────────────────────────────────────────────────

  相比 bf16 基线:  速度提升 1.46 倍,MFU 增加 8.9%
  相比仅 FP8:      速度提升 1.21 倍,MFU 增加 3.3%

  预估训练时间:约 42.5 小时(原 bf16 为 62 小时,仅 FP8 为 52 小时)

现在开始完整训练运行:

Back Donate