训练数据集与词元统计 | AI生成和翻译
数据集大小
| 文件 | 大小 | 内容 |
|---|---|---|
train_fineweb.txt |
16 GB | 8960万行原始文本(上方示例文档为新闻/网络文本) |
train.bin |
7.36 GB | 36.8亿 GPT-2 BPE 词元(uint16) |
val.bin |
12 KB | 5,675 词元 — 极少量,因此验证损失波动较大 |
训练覆盖情况
- 已处理词元:12,000 次迭代 × 524,288 = 62.9亿词元
- 遍历
train.bin的轮次:约1.71次(每个词元平均被看到<2次)
说明
- 约2.2倍的压缩率(16 GB 文本 → 7.36 GB 词元)对 GPT-2 BPE 属于正常范围 —— 约每词元对应3.7字符。
val.bin仅5,675词元,体量异常小(在 block_size=1024 设置下约等于5个评估批次)。当 eval_iters=200 时,多数评估会重复采样相同数据块。如需重新准备数据,建议划分真实保留集(例如从 train.bin 抽取0.5% ≈ 1800万词元)—— 这样验证损失数值会更可靠。- 参考数据:对于1.24亿参数模型,Chinchilla最优训练量约为25亿词元,而当前63亿词元的训练量已超过计算最优值。本次训练效果的瓶颈在于模型规模而非数据量 —— 若要在不扩大模型的情况下进一步降低验证损失,延长训练时间收效甚微。