I Z

Asked: 2021-08-12 04:13:22 +0800 CST2021-08-12 04:13:22 +0800 CST 2021-08-12 04:13:22 +0800 CST

Apache Tika：在哪里放置 tika.xml 以禁用 OCR

我正在运行 Apache Tika 从一堆 MS Office 文档中提取文本。我的命令如下所示：

java -jar "c:\path\to\tika-app-2.0.0.jar" -t ...

（我在 MSYS2 终端的 Win10 上运行此命令）。收到很多这样的消息：

INFO [main] 08:02:46,683 org.apache.tika.parser.ocr.TesseractOCRParser Tesseract is installed and is being invoked. This can add greatly to processing time. If you do not want tesseract to be applied to your files see: https://cwiki.apache.org/confluence/display/TIKA/TikaOCR#TikaOCR-disable-ocr

我需要将tika.xml他们提供的内容放在哪个目录中？我把它放进去，c:\path\to\但没有用。

1 个回答

Voted

Best Answer

harrymc
2021-08-12T05:10:30+08:002021-08-12T05:10:30+08:00
您可以将配置文件放在您喜欢的任何位置。

使用环境变量TIKA_CONFIG指向文件。

参考：配置 Tika - 使用 Tika 配置 XML 文件。
0

Apache Tika：在哪里放置 tika.xml 以禁用 OCR

如何减少“vmmem”进程的消耗？

从 Microsoft Stream 下载视频

Google Chrome DevTools 无法解析 SourceMap：chrome-extension

Windows 照片查看器因为内存不足而无法运行？

支持结束后如何激活 WindowsXP？

远程桌面间歇性冻结

子网掩码 /32 是什么意思？

鼠标指针在 Windows 中按下的箭头键上移动？

VirtualBox 无法以 VERR_NEM_VM_CREATE_FAILED 启动

应用程序不会出现在 MacBook 的摄像头和麦克风隐私设置中

Apache Tika：在哪里放置 tika.xml 以禁用 OCR

1 个回答

相关问题