AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / ubuntu / 问题 / 16268
Accepted
Bou
Bou
Asked: 2010-12-06 02:32:07 +0800 CST2010-12-06 02:32:07 +0800 CST 2010-12-06 02:32:07 +0800 CST

什么是最好、最简单的 OCR 解决方案?

  • 772

我想以尽可能少的麻烦扫描我周围的大量文件。我想使用简单扫描将它们转换为图像,然后使用 OCR 将它们转换为文本。是否有一个带有 GUI 的优秀 OCR 应用程序,只需按一下按钮就能给我带来良好的结果?

software-recommendation scanning ocr
  • 9 9 个回答
  • 132208 Views

9 个回答

  • Voted
  1. Best Answer
    karthick87
    2010-12-06T02:38:04+08:002010-12-06T02:38:04+08:00
    • GOCR from 是一个 OCR(光学字符识别)程序。它将扫描的文本图像转换回文本文件。

    • CLARA是另一个不错的图形选项。

    • OCRAD from 是一个 OCR,可以用作独立的控制台应用程序,也可以用作其他程序的后端。

    • Kooka from 是一个 KDE 应用程序,但工作正常,此外您必须安装实际的 OCR 程序,如 GOCR 和 OCRAD。安装 Kooka 和 OCR 程序后,您必须将 Kooka 指向 OCR 安装位置才能使其能够将JPEG转换为文本。

    • OCRFeeder from 是一个文档布局分析和光学字符识别系统。

    • Tesseract from 是命令行实用程序,使用非常简单。您可以从 此处安装语言包tesseract-ocr-eng。

    看看这个页面。

    注意:
    要运行tesseract转到终端并键入以下内容

    tesseract imagefile.tif outputfile.txt
    

    Tesseract 只能读取 TIFF 文件 - 如果您有 JPEG 或 PDF 或其他文件,则必须对其进行转换。此外,文件扩展名必须是 .tif,而不是 .tiff,否则 tesseract 会出错。

    • 81
  2. kenorb
    2014-09-20T04:04:39+08:002014-09-20T04:04:39+08:00

    您可以使用的流行 OCR 命令行工具很少(我不确定它们是否有 GUI):

    • 正方体(自述文件、常见问题解答)(Python)

      也可用于:Tesseract .NET、Tesseract iOS

      惠普实验室于 1985 年至 1995 年间开发的 OCR 引擎……现在在谷歌。Tesseract 可能是可用的最准确的开源 OCR 引擎。

      用法:

      tesseract [inputFile] [outputFile] [-l optionalLanguageFile] [PathTohOCRConfigFile]
      
    • GOCR

      开源字符识别。它将扫描的文本图像转换回文本文件。GOCR 可以与不同的前端一起使用,这使得移植到不同的操作系统和架构非常容易。它可以打开许多不同的图像格式,并且其质量每天都在提高。

    • OCRopus ™(常见问题解答)(用 Python、NumPy 和 SciPy 编写)

      OCR系统专注于使用大规模机器学习解决文档分析中的问题,具有可插拔布局分析、可插拔字符识别、统计自然语言建模和多语言能力。

      OCRopus 引擎基于两个研究项目:90 年代中期开发并由美国人口普查局部署的高性能手写识别器,以及新颖的高性能布局分析方法。

      OCRopus 是由 Google 赞助开发的,最初旨在用于高吞吐量、大容量的文档转换工作。我们希望它也将成为许多其他应用程序的优秀 OCR 系统。

    • Tessnet2(开源、OCR、Tesseract、.NET、DOTNET、C#、VB.NET、C++/CLI)

      Tesseract 是一个 C++ 开源 OCR 引擎。Tessnet2 是 .NET 程序集,它公开了非常简单的 OCR 方法。Tessnet2 在 Apache 2 许可下(如 tesseract),这意味着您可以随心所欲地使用它,包括在商业产品中。

    其他几个:ABBYY CLI OCR for Linux,Asprise OCR

    如需更完整的列表,请查看:Wikipedia上的光学字符识别软件列表

    另请参阅: - GitHub 上wanghaisheng/awesome-ocr有前途的 OCR 资源的精选列表。

    • 14
  3. mxdsp
    2016-02-04T12:54:24+08:002016-02-04T12:54:24+08:00

    Gscan2PDF

    多页 PDF 或扫描文档上的 OCR

    这可能是最简单的方法。Gscan2pdf 是一个图形工具,它不仅可以让您扫描文件,还可以导入文件并对其执行 OCR。从此处安装gscan2pdf 安装 gscan2pdf,从 Ubuntu 软件中心或在终端中运行此命令:

    sudo apt-get install gscan2pdf
    
    • 运行 gscan2pdf
    • 导入 pdf (Ctrl+O)
    • 可选:工具 > 清理
    • 选择工具 > OCR 保存 (Ctrl+S)

    Gscan2PDF 可以使用可定制的 OCR 引擎,默认为tesseract-ocr

    您可以考虑选择合适的语言。在这种情况下,您将需要安装tesseract-ocr-LANG包,LANG三个字母的 ISO 639-2 语言代码在哪里。现在你在 16.04 repo 上有 108 种语言。

    • 资源
    • 12
  4. Jacob Vlijm
    2018-11-04T13:24:49+08:002018-11-04T13:24:49+08:00

    仅仅因为它工作得非常好并且绝对应该在列表中:

    gimageReader
    截图示例:

    在此处输入图像描述

    它在回购中(在 18.10 上回答,但已经使用了很长时间)

    • 11
  5. Nalin.x.Linux
    2012-11-13T17:57:31+08:002012-11-13T17:57:31+08:00

    linux-智能-ocr-解决方案

    免责声明 - 我与这个开源解决方案的开发密切相关

    Lios 可以使用扫描仪或相机将打印件转换为文本。

    它还可以从其他来源的扫描图像中生成文本,例如 Pdf、图像或包含图像的文件夹。

    程序为视障人士提供了完全的可访问性。

    由于我关系密切 - 我希望得到反馈。

    • Sourceforge 网站
    • 源代码
    • 论坛
    • 9
  6. Eduard Florinescu
    2018-02-04T11:04:17+08:002018-02-04T11:04:17+08:00

    最好和最简单的方法是使用pypdfocr它不会改变 pdf。pypdfocr 是这里的 python 模块链接。

    pypdfocr your_document.pdf
    

    最后,您将拥有另your_document_ocr.pdf一种您想要的可搜索文本方式。该应用程序不会改变图像的质量。通过添加覆盖文本稍微增加文件的大小。

    我认为该命令非常简单,不需要任何 GUI。也许安装 pypdfocr 有点冗长:

    sudo apt install tesseract-ocr 
    pip install pypdfocr 
    

    2018 年 11 月 3 日更新:

    pypdfocr自 2016 年以来不再受支持,我注意到由于未得到维护而存在一些问题。ocrmypdf(模块做了类似的工作,可以像这样使用:

    ocrmypdf in.pdf out.pdf
    

    安装:

    pip install ocrmypdf
    

    或者

    apt install ocrmypdf
    
    • 7
  7. Mark D
    2016-11-17T11:58:35+08:002016-11-17T11:58:35+08:00

    我刚刚使用pdfocr.rb取得了成功(低于 16.04) 。这在Ubuntu wiki上列出

    这是一个 ppa,但 16.04 的存储库未更新。上面来自 github 的 ruby​​ 脚本虽然仍然适用于 16.04。

    你可以从 Github 下载它。您将需要安装以下软件包:

    ruby tesseract-ocr pdftk exactimage
    

    然后使 pdfocr.rb 可执行并运行:

    ./pdfocf.rb -i source.pdf -o output.pdf
    

    您可以选择使用该-l LANG参数。在这种情况下,您将需要安装tesseract-ocr-LANG包,LANG三个字母的 ISO 639-2 语言代码在哪里。现在你在 16.04 repo 上有 108 种语言。

    • 3
  8. Vince West
    2014-11-21T07:45:20+08:002014-11-21T07:45:20+08:00

    gscan2pdf 包括 3 个不同的 ocr 引擎。您可以直接扫描到程序或将您的 pdf 导入程序。我发现 Tesseract 引擎非常好用,而且非常易于使用

    • 1
  9. bmaupin
    2021-07-17T06:01:57+08:002021-07-17T06:01:57+08:00

    OCRFeeder已经被提及为众多选项之一,但我认为值得一提的是为什么它可以满足您的要求:

    • 它有一个 GUI(与其他一些答案中提到的一些应用程序不同)
    • 它易于使用(单击添加图像,然后单击识别文档)

    此外,它还具有其他使其成为绝佳选择的品质:

    • 它只是一个前端,可以使用任意数量的后端(引擎)之一,内置对 CuneiForm、GOCR、Ocrad 和 Tesseract 的支持(https://gitlab.gnome.org/GNOME/ocrfeeder/-/blob/master /src/ocrfeeder/util/configuration.py)。
    • 它是为 Ubuntu 打包的(as ocrfeeder)
    • 在本文发布时,它仍在积极开发中
    • 它是 Gnome 项目的一部分
    • 0

相关问题

  • 有哪些科学绘图软件可用?

  • 最好的思维导图软件是什么?

  • 服务器的最佳rootkit删除工具?

  • 从 Ubuntu 连接到 Windows 的最佳远程桌面工具是什么?[关闭]

  • 是否有 Paint.NET 替代方案?

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    如何安装 .run 文件?

    • 7 个回答
  • Marko Smith

    如何列出所有已安装的软件包

    • 24 个回答
  • Marko Smith

    如何获得 CPU 温度?

    • 21 个回答
  • Marko Smith

    无法锁定管理目录 (/var/lib/dpkg/) 是另一个进程在使用它吗?

    • 25 个回答
  • Marko Smith

    如何使用命令行将用户添加为新的 sudoer?

    • 7 个回答
  • Marko Smith

    更改文件夹权限和所有权

    • 9 个回答
  • Marko Smith

    你如何重新启动Apache?

    • 13 个回答
  • Marko Smith

    如何卸载软件?

    • 11 个回答
  • Marko Smith

    如何删除 PPA?

    • 26 个回答
  • Martin Hope
    NES 如何启用或禁用服务? 2010-12-30 13:03:32 +0800 CST
  • Martin Hope
    Ivan 如何列出所有已安装的软件包 2010-12-17 18:08:49 +0800 CST
  • Martin Hope
    La Ode Adam Saputra 无法锁定管理目录 (/var/lib/dpkg/) 是另一个进程在使用它吗? 2010-11-30 18:12:48 +0800 CST
  • Martin Hope
    Olivier Lalonde 如何在结束 ssh 会话后保持进程运行? 2010-10-22 04:09:13 +0800 CST
  • Martin Hope
    David B 如何使用命令行将用户添加为新的 sudoer? 2010-10-16 04:02:45 +0800 CST
  • Martin Hope
    Hans 如何删除旧内核版本以清理启动菜单? 2010-08-21 19:37:01 +0800 CST
  • Martin Hope
    David Barry 如何从命令行确定目录(文件夹)的总大小? 2010-08-06 10:20:23 +0800 CST
  • Martin Hope
    jfoucher “以下软件包已被保留:”为什么以及如何解决? 2010-08-01 13:59:22 +0800 CST
  • Martin Hope
    David Ashford 如何删除 PPA? 2010-07-30 01:09:42 +0800 CST

热门标签

10.10 10.04 gnome networking server command-line package-management software-recommendation sound xorg

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve