GPT-2训练进展报告 | AI生成和翻译
以下是完整的概况:
训练时间信息:
- 开始时间:2025年11月16日
- 检查点保存时间:2025年11月21日 21:51(历时约5天)
训练进度:
- 迭代次数:11,500 / 12,000(完成96%)
- 最佳验证损失:3.3174
模型 — GPT-2 (124M 参数):
| 参数项 | 数值 |
|---|---|
| 架构 | Transformer (GPT-2) |
| 层数 | 12 |
| 注意力头数 | 12 |
| 嵌入维度 | 768 |
| 上下文长度 | 1024 个词元 |
| 词表大小 | 50,304 (BPE) |
| 参数量 | 约 1.24 亿 |
| 检查点大小 | 1.4 GB(包含优化器状态) |
训练配置:
- 数据集:FineWeb
- 批处理大小:8 × 梯度累积步数 64 = 实际批大小 512
- 数据类型:bfloat16
- 多 GPU 训练:使用 nccl 后端
- 学习率:3e-4 → 3e-5(以余弦衰减方式在 12,000 次迭代中下降)