GPT-2 124M 训练总结

GPT-2 124M 训练总结 | AI生成和翻译

首页 2026.06

以下是综合摘要：

================================================================ GPT-2 124M 训练 — github-code 数据集 ================================================================

模型架构： GPT-2 124M（12层，12头，768嵌入维度）参数量： ~1.24亿 Dropout： 0.0 Bias：无

数据集名称： github-code 路径： /mnt/data/zz/datasets/github-code-tok 总 token 数： ~140亿

训练配置批次大小： 4 × 1024 tokens × 8 梯度累积 = 32,768 tokens/步总步数： 427,000 学习率： 6e-4 → 6e-5（余弦衰减，2000步预热）优化器： AdamW（β1=0.9，β2=0.95，wd=0.1）梯度裁剪： 1.0 编译：是

当前进度迭代次数： 234,000 / 427,000 = 54.8% 已处理 tokens： ~76.7亿 / 140亿最新检查点：第234,000步（保存至 out-github-code-124m/ckpt.pt，1.4GB）

损失曲线第187,000步：训练损失 3.1404，验证损失 3.1927 第234,000步：训练损失 2.6758，验证损失 2.6576 趋势： ↓ 稳步下降，47k步内下降约0.46

硬件状态（RTX 4070） GPU 利用率： 100% 内存利用率： 51% 显存： 5,283 / 12,282 MiB（43%）温度： 66°C 功耗： 207.5W MFU： 14.43% 单步耗时： 622ms

预计剩余时间 ~193,000步 × 622ms = ~33.5小时（约1.4天）完成时间：大约6月25日晚

健康状态训练状态良好。损失平滑下降，验证损失与训练损失紧密跟踪（无过拟合）。GPU 满负荷运行且温度合理。检查点正常保存 ================================================================

返回捐助