2025年10月Common Crawl数据集摘要 | AI生成和翻译

Home 2025.11

本表格是 Common Crawl 2025年10月爬取数据 的官方摘要,具体指代编号为 CC-MAIN-2025-43 的数据集。Common Crawl 是一个非营利项目,每隔一两个月会对全网公开内容进行爬取,并免费发布原始数据,供研究人员、企业及任何感兴趣的人使用(例如用于训练 GPT、LLaMA、Grok 等大型语言模型)。

以下是表格中各部分的含义:

基础信息

不同数据类型及其内容

数据类型 说明 未压缩总大小 文件数量 压缩后大小
WARC 原始完整爬取数据(包含完整HTTP响应:头部信息+HTML+内嵌资源) ~ 数百TiB 100,000 97.73 TiB
WAT 从WARC文件提取的元数据(如外链、语言、内容长度等),以JSON格式存储   100,000 18.39 TiB
WET 仅提取的纯文本内容(无HTML标签、无样板文本,仅保留清洗后的文本)   100,000 7.38 TiB
Robots.txt文件 爬取过程中获取的所有robots.txt文件   100,000 0.15 TiB
非200响应 非成功状态响应(404错误、500错误、重定向等)   100,000 3.07 TiB
URL索引文件 用于查找特定URL所在WARC文件的索引(旧格式)   302 0.20 TiB
列式URL索引 新型列式索引(Parquet格式),适配Spark、DuckDB等大数据工具   900 0.23 TiB

多格式存在的意义

文件组织方式

所有数据被划分为100个数据段(每个WARC段压缩后约1TiB)。每个段包含若干较小的.warc.gz(或.wat.gz、.wet.gz)文件。表格中列出的*.paths.gz文件仅是包含各类文件S3地址列表的文本文件。

您可以通过以下地址免费访问所有内容: s3://commoncrawl/crawl-data/CC-MAIN-2025-43/ (或通过HTTPS:https://data.commoncrawl.org/)

简而言之:这是全球最大的公开网页数据集之一(包含2025年10月的26.1亿个页面),以不同处理形式免费提供,本表格旨在说明各处理版本的体积大小及文件清单位置。


Back

x-ai/grok-4-fast

Donate