训练数据集与词元统计 | AI生成和翻译

Home 2026.04

数据集大小

文件 大小 内容
train_fineweb.txt 16 GB 8960万行原始文本(上方示例文档为新闻/网络文本)
train.bin 7.36 GB 36.8亿 GPT-2 BPE 词元(uint16)
val.bin 12 KB 5,675 词元 — 极少量,因此验证损失波动较大

训练覆盖情况

说明


Back Donate