我正在使用 tesseract 对图像中的一些文本进行 OCR,例如这个:
我的 Ubuntu 20.04 上有这个版本的 tesseract:
$ tesseract --version
tesseract 4.1.1
leptonica-1.79.0
libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 2.0.3) : libpng 1.6.37 : libtiff 4.1.0 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.1
Found AVX2
Found AVX
Found FMA
Found SSE
Found libarchive 3.4.0 zlib/1.2.11 liblzma/5.2.4 bz2lib/1.0.8 liblz4/1.9.2 libzstd/1.4.4
调用它如下:
tesseract example.png output txt
但是,当我output.txt
在 vim 中打开文件时,我^L
在最后一行看到如下:
那个字符的含义是什么?为什么它附加在最后一行?有可能摆脱它吗?
我查看了 的手册页tesseract
,但找不到任何相关内容。