数据过剩,模型欠训练 | AI生成和翻译

Home 2026.06

这是已存储在磁盘上的数据(nanochat 缓存) 位置: ~/.cache/nanochat/base_data_climbmix/ 文件: 176 个 parquet 分片(fineweb-edu 格式) 大小: 374 GB 文档: 约 1.38 亿篇文档 令牌: 约 1640 亿个令牌(估算,约 4 字符 / BPE 令牌)

训练 vs 数据 训练中已使用: 6.55 亿个令牌(10k 步 × 65,536 批次) Chinchilla 最优: 57 亿个令牌(286M 模型参数的 20 倍) 磁盘上已有: 1640 亿个令牌(Chinchilla 最优的 28 倍,已使用量的 250 倍)

结论: 你不需要更多数据。磁盘上已有 1640 亿个令牌, 但只使用了其中的 6.55 亿(0.4%)。

解决方法是延长训练时间,而不是下载更多数据。对于 Chinchilla 最优训练:

目标: 57 亿个令牌 批次大小: 65,536 个令牌/步 所需步数: 57亿 / 65,536 ≈ 87,000 步 时间: 87,000 × 1.18s ≈ 28.5 小时

如果你想激进一些,使用更多数据:

100 亿个令牌: 约 153k 步(约 50 小时) 200 亿个令牌: 约 305k 步(约 100 小时)

需要我检查 nanochat dataset.py 以确认它能在更多迭代中正确遍历所有 176 个分片,还是你想设置一个更长的训练运行?


Back Donate