FineWeb数据集规模详情 | AI生成和翻译

Home 2026.05

是的,44TB这个数字是正确的——但它指的是原始FineWeb v1.0版本所占用的磁盘空间,而非一个绝对上限。

以下是详细说明:


🍷 FineWeb —— 原始版本(v1.0)

Hugging Face于2024年5月31日发布了FineWeb,这是一个大规模数据集,源自96个CommonCrawl快照,包含15万亿个词元(token),占用44TB磁盘空间

因此,是的——44TB是原始FineWeb数据集的正确磁盘大小数据。


数据集此后是否有所扩展?

该数据集已经过更新和扩展。根据Hugging Face页面,当前的FineWeb数据集现已包含超过18.5万亿个词元(原始为15万亿个词元),这些数据是来自CommonCrawl经过清洗和去重的英文网页数据。

这意味着44TB这个数字对应的是最初发布的15万亿词元版本,实际大小已随后续的更新而增长。


FineWeb-Edu子集

除了主数据集,Hugging Face还推出了FineWeb-Edu,这是一个从FineWeb中提取的、经定制分类器评定为高教育价值的1.3万亿词元子集。这个子集的规模远小于完整数据集。


关键事实摘要

属性 数值
数据源 96个CommonCrawl快照
原始词元数量 15万亿词元
更新后词元数量 18.5万亿+词元
磁盘空间(原始) 44TB
FineWeb-Edu子集 1.3万亿词元
语言 仅英文
许可证 ODC-By 1.0

结论: 44TB是原始FineWeb v1.0的磁盘占用量,并非硬性上限。该数据集已增长至超过18.5万亿词元,因此实际存储占用量现已大于44TB。

参考文献:


Back Donate