AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / ubuntu / 问题

问题[tesseract](ubuntu)

Martin Hope
izri_zimba
Asked: 2020-09-21 00:29:14 +0800 CST

为什么 tesseract 将 ^L 附加到输出

  • 0

我正在使用 tesseract 对图像中的一些文本进行 OCR,例如这个:

在此处输入图像描述

我的 Ubuntu 20.04 上有这个版本的 tesseract:

$ tesseract --version
tesseract 4.1.1
 leptonica-1.79.0
  libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 2.0.3) : libpng 1.6.37 : libtiff 4.1.0 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.1
 Found AVX2
 Found AVX
 Found FMA
 Found SSE
 Found libarchive 3.4.0 zlib/1.2.11 liblzma/5.2.4 bz2lib/1.0.8 liblz4/1.9.2 libzstd/1.4.4

调用它如下:

tesseract example.png output txt

但是,当我output.txt在 vim 中打开文件时,我^L在最后一行看到如下:

在此处输入图像描述

那个字符的含义是什么?为什么它附加在最后一行?有可能摆脱它吗?

我查看了 的手册页tesseract,但找不到任何相关内容。

command-line ocr tesseract
  • 1 个回答
  • 1118 Views
Martin Hope
Hula
Asked: 2020-08-17 05:38:29 +0800 CST

无法制作 .box 文件 -Training Tessearct

  • 1

我正在尝试在 Ubuntu 20.04.1 LTS 中训练 Tesseract。我已经下载了 tesseract 和所需的训练工具。

对于我使用 jTessBoxEditor 的训练数据。我有 .tiff 文件,但我无法制作 .box 文件。当我在终端中键入以下内容时:

tesseract --psm 6 --oem 3 Liberation_serif.font.exp0.tif Liberation_serif.font.exp0 makebox

我收到以下错误:

Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
Failed loading language 'eng'
Tesseract couldn't load any languages!
Could not initialize tesseract.

我尝试从 git 下载 eng.traineddata 并将其粘贴到 tessdata。但我收到了相同的错误消息。然后我多次更改 TESSDATA_PREFIX 以使其指向 tessdata 但我再次收到相同的错误消息。我该如何解决这个问题?

编辑:我下载的 tesseract 可执行文件和 tesseract 源代码位于不同的位置。

training tesseract
  • 1 个回答
  • 297 Views
Martin Hope
BloodThirst
Asked: 2019-08-01 08:22:56 +0800 CST

如何编写 bash 脚本以对目录中的所有文件运行相同的命令

  • 2

我想对目录中的所有文件运行此命令。

tesseract /home/kong/Documents/input/248.jpg stdout --psm 1 --oem 1 --dpi 300 tsv >/home/kong/Documents/input/ocr_output/input/248.tsv

输入和输出应具有相同的数字,如248.jpg和248.tsv。我尝试编写一个 python 脚本,它导致了分隔符问题。

有人可以帮我弄这个吗 ?我是 bash 新手。

这是我写的python脚本

comm = shlex.split(command)

out_dir = '/home/kong/Documents/input/ocr_output/input'


for file in tqdm(files):
    base_name = os.path.basename(file)
    number = base_name.split('.')[0]
    out_path = '>' + out_dir + '/' + number + '.tsv'
    comm[1] = file
    comm[-1] = out_path
#     tsv = number + '.tsv'
    with open(out_path, 'w') as f:
        subprocess.run(comm, shell=True, stdout=f)
bash 18.04 tesseract
  • 2 个回答
  • 367 Views
Martin Hope
Ashna Eldho
Asked: 2019-07-12 21:19:50 +0800 CST

Qt-box-editor 可以用于 tesseract 4.0 吗?

  • 1

我正在使用 tesseract 4.0 进行字符识别。在许多博客中,写到 Qt-box-editor 可以与 tesseract 3.x 一起使用。我的问题是:- Qt-box-editor 可以与 tesseract 4.0 一起使用吗?

ocr tesseract
  • 1 个回答
  • 1116 Views
Martin Hope
mayur panchal
Asked: 2019-01-12 06:55:34 +0800 CST

Ubuntu 18.04 错误安装 tesseract

  • 0

我已经安装了 Ubuntu 18.04。

我已经安装了 tesseract 使用sudo apt-get install tesseract-ocr

当我输入:

tesseract -v

我有一个错误:

tesseract: symbol lookup error: /usr/lib/x86_64-linux-gnu/libtesseract.so.4: undefined symbol: pixaDisplayTiledInColumns

下面是输出apt-cache policy tesseract-ocr:

Installed: 4.00~git2288-10f4998a-2
Candidate: 4.00~git2288-10f4998a-2 
Version table: 
   *** 4.00~git2288-10f4998a-2 500 
          500 in.archive.ubuntu.com/ubuntu bionic/universe amd64 Packages 
          100 /var/lib/dpkg/status
php ocr tesseract
  • 3 个回答
  • 7038 Views

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    如何运行 .sh 脚本?

    • 16 个回答
  • Marko Smith

    如何安装 .tar.gz(或 .tar.bz2)文件?

    • 14 个回答
  • Marko Smith

    如何列出所有已安装的软件包

    • 24 个回答
  • Marko Smith

    无法锁定管理目录 (/var/lib/dpkg/) 是另一个进程在使用它吗?

    • 25 个回答
  • Martin Hope
    Flimm 如何在没有 sudo 的情况下使用 docker? 2014-06-07 00:17:43 +0800 CST
  • Martin Hope
    Ivan 如何列出所有已安装的软件包 2010-12-17 18:08:49 +0800 CST
  • Martin Hope
    La Ode Adam Saputra 无法锁定管理目录 (/var/lib/dpkg/) 是另一个进程在使用它吗? 2010-11-30 18:12:48 +0800 CST
  • Martin Hope
    David Barry 如何从命令行确定目录(文件夹)的总大小? 2010-08-06 10:20:23 +0800 CST
  • Martin Hope
    jfoucher “以下软件包已被保留:”为什么以及如何解决? 2010-08-01 13:59:22 +0800 CST
  • Martin Hope
    David Ashford 如何删除 PPA? 2010-07-30 01:09:42 +0800 CST

热门标签

10.10 10.04 gnome networking server command-line package-management software-recommendation sound xorg

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve