FineWeb数据集规模详情

FineWeb数据集规模详情 | AI生成和翻译

首页 2026.05

是的，44TB这个数字是正确的——但它指的是原始FineWeb v1.0版本所占用的磁盘空间，而非一个绝对上限。

以下是详细说明：

Hugging Face于2024年5月31日发布了FineWeb，这是一个大规模数据集，源自96个CommonCrawl快照，包含15万亿个词元（token），占用44TB磁盘空间。

因此，是的——44TB是原始FineWeb数据集的正确磁盘大小数据。

该数据集已经过更新和扩展。根据Hugging Face页面，当前的FineWeb数据集现已包含超过18.5万亿个词元（原始为15万亿个词元），这些数据是来自CommonCrawl经过清洗和去重的英文网页数据。

这意味着44TB这个数字对应的是最初发布的15万亿词元版本，实际大小已随后续的更新而增长。

除了主数据集，Hugging Face还推出了FineWeb-Edu，这是一个从FineWeb中提取的、经定制分类器评定为高教育价值的1.3万亿词元子集。这个子集的规模远小于完整数据集。

结论： 44TB是原始FineWeb v1.0的磁盘占用量，并非硬性上限。该数据集已增长至超过18.5万亿词元，因此实际存储占用量现已大于44TB。

参考文献：

返回捐助