我正在尝试在 Ubuntu 20.04.1 LTS 中训练 Tesseract。我已经下载了 tesseract 和所需的训练工具。
对于我使用 jTessBoxEditor 的训练数据。我有 .tiff 文件,但我无法制作 .box 文件。当我在终端中键入以下内容时:
tesseract --psm 6 --oem 3 Liberation_serif.font.exp0.tif Liberation_serif.font.exp0 makebox
我收到以下错误:
Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
Failed loading language 'eng'
Tesseract couldn't load any languages!
Could not initialize tesseract.
我尝试从 git 下载 eng.traineddata 并将其粘贴到 tessdata。但我收到了相同的错误消息。然后我多次更改 TESSDATA_PREFIX 以使其指向 tessdata 但我再次收到相同的错误消息。我该如何解决这个问题?
编辑:我下载的 tesseract 可执行文件和 tesseract 源代码位于不同的位置。
我在两个位置下载了 tesseract。TESSDATA_PREFIX 指向的位置没有 eng.traineddata。我从 github 将其下载到该目录中,并
cat >> .pam_environment
再次用于使 TESSDATA_PREFIX 指向该位置。我再次登录,现在可以制作 .box 文件。