我正在运行 Apache Tika 从一堆 MS Office 文档中提取文本。我的命令如下所示:
java -jar "c:\path\to\tika-app-2.0.0.jar" -t ...
(我在 MSYS2 终端的 Win10 上运行此命令)。收到很多这样的消息:
INFO [main] 08:02:46,683 org.apache.tika.parser.ocr.TesseractOCRParser Tesseract is installed and is being invoked. This can add greatly to processing time. If you do not want tesseract to be applied to your files see: https://cwiki.apache.org/confluence/display/TIKA/TikaOCR#TikaOCR-disable-ocr
我需要将tika.xml
他们提供的内容放在哪个目录中?我把它放进去,c:\path\to\
但没有用。
您可以将配置文件放在您喜欢的任何位置。
使用环境变量
TIKA_CONFIG
指向文件。参考: 配置 Tika - 使用 Tika 配置 XML 文件。