GPT-2训练进展报告

GPT-2训练进展报告 | AI生成和翻译

Home 2026.04

以下是完整的概况：

训练时间信息：

开始时间：2025年11月16日
检查点保存时间：2025年11月21日 21:51（历时约5天）

训练进度：

迭代次数：11,500 / 12,000（完成96%）
最佳验证损失：3.3174

模型 — GPT-2 (124M 参数)：

参数项	数值
架构	Transformer (GPT-2)
层数	12
注意力头数	12
嵌入维度	768
上下文长度	1024 个词元
词表大小	50,304 (BPE)
参数量	约 1.24 亿
检查点大小	1.4 GB（包含优化器状态）

训练配置：

数据集：FineWeb
批处理大小：8 × 梯度累积步数 64 = 实际批大小 512
数据类型：bfloat16
多 GPU 训练：使用 nccl 后端
学习率：3e-4 → 3e-5（以余弦衰减方式在 12,000 次迭代中下降）

Back Donate