2025年10月Common Crawl数据集摘要

2025年10月Common Crawl数据集摘要 | AI生成和翻译

Home 2025.11

本表格是 Common Crawl 2025年10月爬取数据 的官方摘要，具体指代编号为 CC-MAIN-2025-43 的数据集。Common Crawl 是一个非营利项目，每隔一两个月会对全网公开内容进行爬取，并免费发布原始数据，供研究人员、企业及任何感兴趣的人使用（例如用于训练 GPT、LLaMA、Grok 等大型语言模型）。

以下是表格中各部分的含义：

基础信息

名称：CC-MAIN-2025-43 → 代表2025年第43周发布的爬取数据，大致采集于2025年10月
规模：共捕获26.1亿个独立网页

不同数据类型及其内容

数据类型	说明	未压缩总大小	文件数量	压缩后大小
WARC	原始完整爬取数据（包含完整HTTP响应：头部信息+HTML+内嵌资源）	~ 数百TiB	100,000	97.73 TiB
WAT	从WARC文件提取的元数据（如外链、语言、内容长度等），以JSON格式存储		100,000	18.39 TiB
WET	仅提取的纯文本内容（无HTML标签、无样板文本，仅保留清洗后的文本）		100,000	7.38 TiB
Robots.txt文件	爬取过程中获取的所有robots.txt文件		100,000	0.15 TiB
非200响应	非成功状态响应（404错误、500错误、重定向等）		100,000	3.07 TiB
URL索引文件	用于查找特定URL所在WARC文件的索引（旧格式）		302	0.20 TiB
列式URL索引	新型列式索引（Parquet格式），适配Spark、DuckDB等大数据工具		900	0.23 TiB

多格式存在的意义

若仅需训练语言模型 → 通常下载 WET 文件（已清洗文本，体积最小）
若需要完整HTML、图片、CSS等 → 下载 WARC 文件（体积最大）
若需要元数据（链接、检测语言等）而非完整HTML → 选择 WAT
索引文件可帮助定位特定页面，无需遍历全部10万个文件

文件组织方式

所有数据被划分为100个数据段（每个WARC段压缩后约1TiB）。每个段包含若干较小的.warc.gz（或.wat.gz、.wet.gz）文件。表格中列出的*.paths.gz文件仅是包含各类文件S3地址列表的文本文件。

您可以通过以下地址免费访问所有内容： s3://commoncrawl/crawl-data/CC-MAIN-2025-43/ （或通过HTTPS：https://data.commoncrawl.org/）

简而言之：这是全球最大的公开网页数据集之一（包含2025年10月的26.1亿个页面），以不同处理形式免费提供，本表格旨在说明各处理版本的体积大小及文件清单位置。

Back Donate