GPT-2精细网络训练总结

GPT-2精细网络训练总结 | AI生成和翻译

首页 2026.04

以下是此文件夹中的训练内容：

文件夹	架构	大小	数据集	迭代次数	最佳验证损失
`out-fineweb/ckpt.pt`	12L / 12H / 768d，块大小 1024	GPT-2 124M	FineWeb	11,500	3.32
`out-wikipedia/ckpt.pt`	6L / 6H / 384d，块大小 512	~30M	Wikipedia (openwebtext_local)	18,000	4.05
`out-helloworld/ckpt.pt`	6L / 6H / 384d，块大小 256	~10M（字符词汇表 65）	shakespeare_char	500	1.77
`out-shakespeare-char/ckpt.pt`	6L / 6H / 384d，块大小 256	~10M（字符词汇表 65）	shakespeare_char	500	1.71
`out-shakespeare/`	空	—	—	—	—

因此是的 —— out-fineweb/ckpt.pt 是一个 GPT-2 124M 架构（12 层，12 个头，嵌入维度 768，块大小 1024，词汇表 50304），在 FineWeb 上从头训练至迭代 11,500 次。其 1.4 GB 的大小与包含优化器状态的 124M 参数模型保存文件相符。

Shakespeare-char 和 helloworld 检查点是小型 10M 字符级模型，而 wikipedia 检查点是一个约 30M 的中等规模模型 —— 两者均非 GPT-2 124M。

返回捐助