英文维基百科下载指南

英文维基百科下载指南 | AI生成和翻译

Home 2025.11

这是来自官方维基媒体下载镜像之一的目录列表（通常是 https://dumps.wikimedia.org/enwiki/latest/）。
其中包含了截至2025年11月初的当前英文维基百科文章的所有下载方式。

主要格式及其实际内容

文件名模式	说明	近似大小（未压缩）	是否最适合训练LLM？	备注
`enwiki-latest-pages-articles.xml.bz2`	单个巨型文件，包含所有文章+讨论页、模板、重定向页等	~85–90 GB 未压缩	是，非常常用	如果您有足够的空间和带宽，这是最简单的选择
`enwiki-latest-pages-articles1.xml-p1p41242.bz2` … 直到 … `enwiki-latest-pages-articles27.xml-…`	相同的数据，但分割成27个较小的块（多流格式）	每个压缩后约200–600 MB → 总计未压缩仍为~85–90 GB	是，最受欢迎的选择	支持并行下载和轻松断点续传
`enwiki-latest-pages-articles-multistreamX.xml.bz2` (例如 multistream27)	属于上述分割版本的实际大型压缩数据文件	每个压缩后300–600 MB	这些是您真正需要的数据文件	您需要这些文件 + 索引文件
`enwiki-latest-pages-articles-multistreamX.xml.bz2.md5` / `.meta`	校验和及小型元数据文件	< 1 KB	不用于文本处理	仅用于验证下载完整性
`enwiki-latest-pages-articles-multistream-indexX.xml.bz2`	索引文件，指示各文章在大型多流文件中的字节偏移量	每个压缩后约30–60 MB	如果使用多流格式则必需	用于快速随机访问；大多数处理脚本都需要它们

推荐：2025年训练模型时几乎所有人使用的方式

事实上的标准方法（被LLaMA、Mistral、Qwen、DeepSeek、Gemma、Phi等使用）是：

下载 27个多流文件 + 对应的27个索引文件
（即所有以 enwiki-latest-pages-articlesXX.xml-p…p….bz2 开头以及匹配的 …-indexXX…bz2 文件）

或者更简单：如果您的网络连接和磁盘能够处理，直接下载单个巨型文件：

enwiki-latest-pages-articles.xml.bz2    ← 压缩后24.6 GB，未压缩约85–90 GB

两者包含完全相同的原始XML数据（所有主命名空间文章 + 大量额外页面）。

为什么不使用小文件（multistream3.xml-p…, multistream4.xml-p… 等）？

这些是2010–2015年间非常旧的分割文件，仅包含维基百科的一小部分（当时恰好落入该页面ID范围内的文章）。它们仅为历史原因保留，现在基本上已无用。

快速开始命令（2025年转储）

并行下载推荐的27+27个文件（最快）：

# 获取文件列表
wget -q https://dumps.wikimedia.org/enwiki/latest/ -O - | \
  grep -E 'enwiki-latest-pages-articles[0-9]+[02468]\.xml-p[0-9]+p[0-9]+\.bz2"' | \
  sed -e 's/.*href="//' -e 's/".*//' | \
  xargs -n1 -P10 wget https://dumps.wikimedia.org/enwiki/latest/

# 同时下载匹配的索引文件
wget -q https://dumps.wikimedia.org/enwiki/latest/ -O - | \
  grep -E 'enwiki-latest-pages-articles-multistream-index' | \
  sed -e 's/.*href="//' -e 's/".*//' | \
  xargs -n1 -P10 wget https://dumps.wikimedia.org/enwiki/latest/

或者仅下载单个文件（最简单）：

wget https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2

之后您通常使用以下工具进行处理：

wikiextractor (Python) → 清理文本
Hugging Face datasets 的维基百科加载器（已为您完成所有处理）
DeepSeek 或 EleutherAI 的处理脚本等

简而言之：
下载单个24 GB的 enwiki-latest-pages-articles.xml.bz2 文件，或者27个分割文件 + 索引文件。列表中的其他所有内容要么是校验和、旧垃圾数据，要么是训练不需要的元数据。

Back Donate