如何从命令行仅安装安全更新？关于如何管理更新的一些提示

Question

izri_zimba

Asked: 2020-09-21 00:29:14 +0800 CST2020-09-21 00:29:14 +0800 CST 2020-09-21 00:29:14 +0800 CST

为什么 tesseract 将 ^L 附加到输出

772

我正在使用 tesseract 对图像中的一些文本进行 OCR，例如这个：

我的 Ubuntu 20.04 上有这个版本的 tesseract：

$ tesseract --version
tesseract 4.1.1
 leptonica-1.79.0
  libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 2.0.3) : libpng 1.6.37 : libtiff 4.1.0 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.1
 Found AVX2
 Found AVX
 Found FMA
 Found SSE
 Found libarchive 3.4.0 zlib/1.2.11 liblzma/5.2.4 bz2lib/1.0.8 liblz4/1.9.2 libzstd/1.4.4

调用它如下：

tesseract example.png output txt

但是，当我output.txt在 vim 中打开文件时，我^L在最后一行看到如下：

那个字符的含义是什么？为什么它附加在最后一行？有可能摆脱它吗？

我查看了的手册页tesseract，但找不到任何相关内容。

1 个回答

Voted

FedKad · Answer 1 · 2020-09-21T00:40:49+08:00

Best Answer

FedKad

2020-09-21T00:40:49+08:002020-09-21T00:40:49+08:00

我假设tesseract在文本末尾添加一个新页面（ASCII“换页”）字符。您可以使用以下方法删除它：

sed -i 's/^L//' output.txt

要^L在上述命令中输入字符，请先输入Ctrl+ V，然后再输入Ctrl+ L。

对于 GNU sed，您也可以简单地使用以下命令：

sed  -i 's/\x0c//' output.txt

作为一种更直接的方法，您可以使用以下-c选项：

tesseract -c page_separator="" example.png output txt

所以你在输出文件中不会有任何“页面分隔符”。

3

为什么 tesseract 将 ^L 附加到输出

如何运行 .sh 脚本？

如何安装 .tar.gz（或 .tar.bz2）文件？

如何列出所有已安装的软件包

无法锁定管理目录 (/var/lib/dpkg/) 是另一个进程在使用它吗？

为什么 tesseract 将 ^L 附加到输出

1 个回答

相关问题