我的用例是我需要解析维基百科文章中的文本。https://dumps.wikimedia.org/enwiki/20221001/有一个转储,其中包含我想要的文件。本质上,这些文章被分成几对压缩文件:一个由维基百科文章子集组成的 xml 文档,以及一个包含与 xml 文档有关的元数据的文本文件。通常,xml 文档压缩后运行 200MB,文本文件压缩后运行不到 1MB。
例如,这是上面引用的转储页面上的一对文件:
enwiki-20221001-pages-articles-multistream1.xml-p1p41242.bz2 251.7 MB
enwiki-20221001-pages-articles-multistream-index1.txt-p1p41242.bz2 221 KB
使用 WinZip(试用版)我能够提取文本文件。但是,当我尝试从文章文件中提取 xml 文件时,WinZip 说该文件已损坏并提供保存它能够提取的内容。无论我尝试提取哪个压缩的 xml 文件,它总是节省相同的数量——大约 3KB。
我认为问题可能出在文件大小上,所以我压缩了一个 4GB 的文件并尝试提取该文件,并且成功了。
我不知道该去哪里。
尝试再次下载该文件。
如果出现同样的问题,请尝试使用其他程序解压缩。
示例产品: 7Zip和 Bandizip。