使用 OCRFeeder 时如何指定 Tesseract 使用的语言

Question

rubo77

Asked: 2015-07-04 15:29:26 +0800 CST2015-07-04 15:29:26 +0800 CST 2015-07-04 15:29:26 +0800 CST

ocrfeeder 没有检测到任何东西

当我尝试检测我的 jpeg 上的文本时，它会正确显示它怀疑文本和图像的所有区域，但是当我将它导出到 ODT 时，它只会创建一个带有空文本和图像帧的 ODT。

我必须以tesseract某种方式配置吗？

（我使用的是 Ubuntu 14.10 32 位）

kyodake · Answer 1 · 2015-07-04T17:27:07+08:00

Best Answer

kyodake

尝试这个：

打开 ocrfeeder 程序。

编辑引擎：点击Tools-OCR Engine

选择Tesseract engine并单击Edit

它说arguments engine为此更改了脚本：

$IMAGE $FILE -l eng -psm 3 > /dev/null 2> /dev/null; cat $FILE.txt; rm $FILE $FILE.txt

要导出文档，请单击File-Export

选择所需的输出格式。

如果文档有图片，我建议使用html格式文本。

如果只有文字最好是使用纯文本格式txt。