纳米GPT竞速:GPT-2模型的快速训练 | AI生成和翻译

Home 2026.04

这里是 NanoGPT 速通 代码库——一项旨在 8x H100 GPU 上以最快速度训练 GPT-2 的协作优化挑战。目标:在 FineWeb 验证集上达到 3.28 的交叉熵损失。当前记录已突破 90 秒(原始基准为 45 分钟)。

主要内容:

优化内容广泛:旋转嵌入、QK 归一化、ReLU² 激活函数、FP8 矩阵乘法、带滑动窗口的 Flash Attention 3、跳跃连接、稀疏注意力门控、双元哈希嵌入、批大小/序列长度调度等。每条 records/ 记录都详细说明了变更内容及其带来的加速效果。


Back Donate