GPT-2 124M 训练总结 | AI生成和翻译
以下是综合摘要:
================================================================ GPT-2 124M 训练 — github-code 数据集 ================================================================
模型 架构: GPT-2 124M(12层,12头,768嵌入维度) 参数量: ~1.24亿 Dropout: 0.0 Bias: 无
数据集 名称: github-code 路径: /mnt/data/zz/datasets/github-code-tok 总 token 数: ~140亿
训练配置 批次大小: 4 × 1024 tokens × 8 梯度累积 = 32,768 tokens/步 总步数: 427,000 学习率: 6e-4 → 6e-5(余弦衰减,2000步预热) 优化器: AdamW(β1=0.9,β2=0.95,wd=0.1) 梯度裁剪: 1.0 编译: 是
当前进度 迭代次数: 234,000 / 427,000 = 54.8% 已处理 tokens: ~76.7亿 / 140亿 最新检查点: 第234,000步(保存至 out-github-code-124m/ckpt.pt,1.4GB)
损失曲线 第187,000步: 训练损失 3.1404,验证损失 3.1927 第234,000步: 训练损失 2.6758,验证损失 2.6576 趋势: ↓ 稳步下降,47k步内下降约0.46
硬件状态(RTX 4070) GPU 利用率: 100% 内存利用率: 51% 显存: 5,283 / 12,282 MiB(43%) 温度: 66°C 功耗: 207.5W MFU: 14.43% 单步耗时: 622ms
预计剩余时间 ~193,000步 × 622ms = ~33.5小时(约1.4天) 完成时间: 大约6月25日晚
健康状态 训练状态良好。损失平滑下降,验证损失与训练损失紧密跟踪(无过拟合)。GPU 满负荷运行且温度合理。检查点正常保存 ================================================================