我正在使用 tesseract 对图像中的一些文本进行 OCR,例如这个:
我的 Ubuntu 20.04 上有这个版本的 tesseract:
$ tesseract --version
tesseract 4.1.1
leptonica-1.79.0
libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 2.0.3) : libpng 1.6.37 : libtiff 4.1.0 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.1
Found AVX2
Found AVX
Found FMA
Found SSE
Found libarchive 3.4.0 zlib/1.2.11 liblzma/5.2.4 bz2lib/1.0.8 liblz4/1.9.2 libzstd/1.4.4
调用它如下:
tesseract example.png output txt
但是,当我output.txt
在 vim 中打开文件时,我^L
在最后一行看到如下:
那个字符的含义是什么?为什么它附加在最后一行?有可能摆脱它吗?
我查看了 的手册页tesseract
,但找不到任何相关内容。
我假设
tesseract
在文本末尾添加一个新页面(ASCII“换页”)字符。您可以使用以下方法删除它:要
^L
在上述命令中输入字符,请先输入Ctrl+ V,然后再输入Ctrl+ L。对于 GNU
sed
,您也可以简单地使用以下命令:作为一种更直接的方法,您可以使用以下
-c
选项:所以你在输出文件中不会有任何“页面分隔符”。