2025年10月Common Crawl数据集摘要 | AI生成和翻译
本表格是 Common Crawl 2025年10月爬取数据 的官方摘要,具体指代编号为 CC-MAIN-2025-43 的数据集。Common Crawl 是一个非营利项目,每隔一两个月会对全网公开内容进行爬取,并免费发布原始数据,供研究人员、企业及任何感兴趣的人使用(例如用于训练 GPT、LLaMA、Grok 等大型语言模型)。
以下是表格中各部分的含义:
基础信息
- 名称:CC-MAIN-2025-43 → 代表2025年第43周发布的爬取数据,大致采集于2025年10月
- 规模:共捕获26.1亿个独立网页
不同数据类型及其内容
| 数据类型 | 说明 | 未压缩总大小 | 文件数量 | 压缩后大小 |
|---|---|---|---|---|
| WARC | 原始完整爬取数据(包含完整HTTP响应:头部信息+HTML+内嵌资源) | ~ 数百TiB | 100,000 | 97.73 TiB |
| WAT | 从WARC文件提取的元数据(如外链、语言、内容长度等),以JSON格式存储 | 100,000 | 18.39 TiB | |
| WET | 仅提取的纯文本内容(无HTML标签、无样板文本,仅保留清洗后的文本) | 100,000 | 7.38 TiB | |
| Robots.txt文件 | 爬取过程中获取的所有robots.txt文件 | 100,000 | 0.15 TiB | |
| 非200响应 | 非成功状态响应(404错误、500错误、重定向等) | 100,000 | 3.07 TiB | |
| URL索引文件 | 用于查找特定URL所在WARC文件的索引(旧格式) | 302 | 0.20 TiB | |
| 列式URL索引 | 新型列式索引(Parquet格式),适配Spark、DuckDB等大数据工具 | 900 | 0.23 TiB |
多格式存在的意义
- 若仅需训练语言模型 → 通常下载 WET 文件(已清洗文本,体积最小)
- 若需要完整HTML、图片、CSS等 → 下载 WARC 文件(体积最大)
- 若需要元数据(链接、检测语言等)而非完整HTML → 选择 WAT
- 索引文件可帮助定位特定页面,无需遍历全部10万个文件
文件组织方式
所有数据被划分为100个数据段(每个WARC段压缩后约1TiB)。每个段包含若干较小的.warc.gz(或.wat.gz、.wet.gz)文件。表格中列出的*.paths.gz文件仅是包含各类文件S3地址列表的文本文件。
您可以通过以下地址免费访问所有内容:
s3://commoncrawl/crawl-data/CC-MAIN-2025-43/
(或通过HTTPS:https://data.commoncrawl.org/)
简而言之:这是全球最大的公开网页数据集之一(包含2025年10月的26.1亿个页面),以不同处理形式免费提供,本表格旨在说明各处理版本的体积大小及文件清单位置。