GPT-2精细网络训练总结 | AI生成和翻译

Home 2026.04

以下是此文件夹中的训练内容:

文件夹 架构 大小 数据集 迭代次数 最佳验证损失
out-fineweb/ckpt.pt 12L / 12H / 768d,块大小 1024 GPT-2 124M FineWeb 11,500 3.32
out-wikipedia/ckpt.pt 6L / 6H / 384d,块大小 512 ~30M Wikipedia (openwebtext_local) 18,000 4.05
out-helloworld/ckpt.pt 6L / 6H / 384d,块大小 256 ~10M(字符词汇表 65) shakespeare_char 500 1.77
out-shakespeare-char/ckpt.pt 6L / 6H / 384d,块大小 256 ~10M(字符词汇表 65) shakespeare_char 500 1.71
out-shakespeare/

因此 是的 —— out-fineweb/ckpt.pt 是一个 GPT-2 124M 架构(12 层,12 个头,嵌入维度 768,块大小 1024,词汇表 50304),在 FineWeb 上从头训练至迭代 11,500 次。其 1.4 GB 的大小与包含优化器状态的 124M 参数模型保存文件相符。

Shakespeare-char 和 helloworld 检查点是小型 10M 字符级模型,而 wikipedia 检查点是一个约 30M 的中等规模模型 —— 两者均非 GPT-2 124M。


Back Donate