326k步训练之旅 | AI生成和翻译

Home 2026.06

以下是我们如何达到约326k步的完整历程:

=== ZZ 训练历程 ===

第一阶段:数据收集与工具构建(2026年5月-6月) 仓库最初是一个数据集处理流水线。你构建了脚本来:

第二阶段:首次小规模运行(FineWeb,125M 模型) 使用 GPT-2 124M 模型在 FineWeb 数据上进行早期训练:

第三阶段:NANOCCHAT 运行(286M 模型,6月4-6日) 在 fineweb-edu 上使用更大的模型(286M参数,深度=12,n_embd=768,n_head=6):

第四阶段:760M 运行(MI300X,短暂) 尝试了760M模型运行(记录在 nanogpt_760m_train 日志中),可能是在 租用的 MI300X GPU 上。

第五阶段:GITHUB-CODE 124M(当前,正在运行) 将数据集切换为282个 GitHub 代码的 .npy 分片(27GB 分词后)。 配置:GPT-2 124M,batch=4×1024×8 累积 = 32,768 tok/步, 学习率=6e-4,最大迭代427k → 总计14B tokens。

进度: 第0步:损失 10.87(随机初始化) 第25k步:损失约3.6(快速学习) 第325k步:验证损失 2.7892(刚在325k评估) 当前:约326,960 / 427,000 = 76.6% 完成

步时开始时约3.9秒,但在 torch.compile 预热后下降到约621毫秒。 MFU 稳定在14.44%。按当前速度,剩余约62k步 × 621毫秒 ≈ 10.7小时。

检查点保存到 /mnt/data/nanoGPT/out-github-code-124m/(1.4GB)。


Back Donate