维基百科转储文件结构差异 | AI生成和翻译

Home 2025.11

核心区别在于维基百科全文内容在多个文件中的存储方式——具体来说,每个.xml.bz2文件是仅包含单一修订流(非多流格式),还是包含多个压缩流捆绑在一起(多流格式)。

1. 非多流数据文件(旧式格式,或默认的“pages-articles”文件)

示例文件名:
enwiki-20251101-pages-articles1.xml-p1p41242.bz2

2. 多流数据文件(文件名包含“multistream”的文件)

示例文件名(您链接的文件):
enwiki-20251101-pages-articles-multistream1.xml-p1p41242.bz2

这对wget -c有何影响?

实际操作中,以下两个命令:

wget -c https://.../enwiki-20251101-pages-articles1.xml-p1p41242.bz2
wget -c https://.../enwiki-20251101-pages-articles-multistream1.xml-p1p41242.bz2

在wget层面表现完全一致:两者都是标准的单bzip2文件,使用-c参数均可完美实现断点续传。

区别仅出现在开始处理下载文件时。

功能对比表

特性 非多流格式(常规) 多流格式
文件名包含 -pages-articlesN.xml-...bz2 -pages-articles-multistreamN.xml-...bz2
文章文本存储位置 在XML的<page><revision><text>...</text></revision></page> 在XML外部,存储于独立的压缩流中
相同页面范围的文件大小 更大(通常为2–3倍) 更小
随机访问/单页提取 较慢(需解压整个文件) 极快(配合索引文件使用)
直接兼容的工具 任意XML解析器(SAX、xmltodict等) 维基媒体官方工具集(dump-generator、pywiki、mwxml等)
是否需要配套索引文件? 是(需-multistream-index....txt.bz2
wget -c断点续传支持 完美支持 完美支持(仍为单bzip2文件)

如何选择下载版本?

两种文件均可通过wget -c实现无忧断点续传——“多流”特性仅影响文件内部结构,不会改变HTTP/wget的传输机制。


Back

x-ai/grok-4-fast

Donate