Apache Tika：在哪里放置 tika.xml 以禁用 OCR

Question

Len White

Asked: 2022-10-17 15:28:21 +0800 CST2022-10-17 15:28:21 +0800 CST 2022-10-17 15:28:21 +0800 CST

解压 Wikipedia Dump 时遇到问题

772

我的用例是我需要解析维基百科文章中的文本。https://dumps.wikimedia.org/enwiki/20221001/有一个转储，其中包含我想要的文件。本质上，这些文章被分成几对压缩文件：一个由维基百科文章子集组成的 xml 文档，以及一个包含与 xml 文档有关的元数据的文本文件。通常，xml 文档压缩后运行 200MB，文本文件压缩后运行不到 1MB。

例如，这是上面引用的转储页面上的一对文件：

enwiki-20221001-pages-articles-multistream1.xml-p1p41242.bz2 251.7 MB

enwiki-20221001-pages-articles-multistream-index1.txt-p1p41242.bz2 221 KB

使用 WinZip（试用版）我能够提取文本文件。但是，当我尝试从文章文件中提取 xml 文件时，WinZip 说该文件已损坏并提供保存它能够提取的内容。无论我尝试提取哪个压缩的 xml 文件，它总是节省相同的数量——大约 3KB。

我认为问题可能出在文件大小上，所以我压缩了一个 4GB 的文件并尝试提取该文件，并且成功了。

我不知道该去哪里。

1 个回答

Voted

harrymc · Answer 1 · 2022-10-18T06:16:55+08:00

Best Answer

harrymc

2022-10-18T06:16:55+08:002022-10-18T06:16:55+08:00

尝试再次下载该文件。

如果出现同样的问题，请尝试使用其他程序解压缩。

示例产品： 7Zip和 Bandizip。

1

解压 Wikipedia Dump 时遇到问题

如何减少“vmmem”进程的消耗？

从 Microsoft Stream 下载视频

Google Chrome DevTools 无法解析 SourceMap：chrome-extension

Windows 照片查看器因为内存不足而无法运行？

支持结束后如何激活 WindowsXP？

远程桌面间歇性冻结

子网掩码 /32 是什么意思？

鼠标指针在 Windows 中按下的箭头键上移动？

VirtualBox 无法以 VERR_NEM_VM_CREATE_FAILED 启动

应用程序不会出现在 MacBook 的摄像头和麦克风隐私设置中

解压 Wikipedia Dump 时遇到问题

1 个回答

相关问题