Bou Asked: 2010-12-06 02:32:07 +0800 CST2010-12-06 02:32:07 +0800 CST 2010-12-06 02:32:07 +0800 CST 什么是最好、最简单的 OCR 解决方案? 772 我想以尽可能少的麻烦扫描我周围的大量文件。我想使用简单扫描将它们转换为图像,然后使用 OCR 将它们转换为文本。是否有一个带有 GUI 的优秀 OCR 应用程序,只需按一下按钮就能给我带来良好的结果? software-recommendation scanning ocr 9 个回答 Voted Best Answer karthick87 2010-12-06T02:38:04+08:002010-12-06T02:38:04+08:00 GOCR from 是一个 OCR(光学字符识别)程序。它将扫描的文本图像转换回文本文件。 CLARA是另一个不错的图形选项。 OCRAD from 是一个 OCR,可以用作独立的控制台应用程序,也可以用作其他程序的后端。 Kooka from 是一个 KDE 应用程序,但工作正常,此外您必须安装实际的 OCR 程序,如 GOCR 和 OCRAD。安装 Kooka 和 OCR 程序后,您必须将 Kooka 指向 OCR 安装位置才能使其能够将JPEG转换为文本。 OCRFeeder from 是一个文档布局分析和光学字符识别系统。 Tesseract from 是命令行实用程序,使用非常简单。您可以从 此处安装语言包tesseract-ocr-eng。 看看这个页面。 注意: 要运行tesseract转到终端并键入以下内容 tesseract imagefile.tif outputfile.txt Tesseract 只能读取 TIFF 文件 - 如果您有 JPEG 或 PDF 或其他文件,则必须对其进行转换。此外,文件扩展名必须是 .tif,而不是 .tiff,否则 tesseract 会出错。 kenorb 2014-09-20T04:04:39+08:002014-09-20T04:04:39+08:00 您可以使用的流行 OCR 命令行工具很少(我不确定它们是否有 GUI): 正方体(自述文件、常见问题解答)(Python) 也可用于:Tesseract .NET、Tesseract iOS 惠普实验室于 1985 年至 1995 年间开发的 OCR 引擎……现在在谷歌。Tesseract 可能是可用的最准确的开源 OCR 引擎。 用法: tesseract [inputFile] [outputFile] [-l optionalLanguageFile] [PathTohOCRConfigFile] GOCR 开源字符识别。它将扫描的文本图像转换回文本文件。GOCR 可以与不同的前端一起使用,这使得移植到不同的操作系统和架构非常容易。它可以打开许多不同的图像格式,并且其质量每天都在提高。 OCRopus ™(常见问题解答)(用 Python、NumPy 和 SciPy 编写) OCR系统专注于使用大规模机器学习解决文档分析中的问题,具有可插拔布局分析、可插拔字符识别、统计自然语言建模和多语言能力。 OCRopus 引擎基于两个研究项目:90 年代中期开发并由美国人口普查局部署的高性能手写识别器,以及新颖的高性能布局分析方法。 OCRopus 是由 Google 赞助开发的,最初旨在用于高吞吐量、大容量的文档转换工作。我们希望它也将成为许多其他应用程序的优秀 OCR 系统。 Tessnet2(开源、OCR、Tesseract、.NET、DOTNET、C#、VB.NET、C++/CLI) Tesseract 是一个 C++ 开源 OCR 引擎。Tessnet2 是 .NET 程序集,它公开了非常简单的 OCR 方法。Tessnet2 在 Apache 2 许可下(如 tesseract),这意味着您可以随心所欲地使用它,包括在商业产品中。 其他几个:ABBYY CLI OCR for Linux,Asprise OCR 如需更完整的列表,请查看:Wikipedia上的光学字符识别软件列表 另请参阅: - GitHub 上wanghaisheng/awesome-ocr有前途的 OCR 资源的精选列表。 mxdsp 2016-02-04T12:54:24+08:002016-02-04T12:54:24+08:00 Gscan2PDF 多页 PDF 或扫描文档上的 OCR 这可能是最简单的方法。Gscan2pdf 是一个图形工具,它不仅可以让您扫描文件,还可以导入文件并对其执行 OCR。从此处安装gscan2pdf ,从 Ubuntu 软件中心或在终端中运行此命令: sudo apt-get install gscan2pdf 运行 gscan2pdf 导入 pdf (Ctrl+O) 可选:工具 > 清理 选择工具 > OCR 保存 (Ctrl+S) Gscan2PDF 可以使用可定制的 OCR 引擎,默认为tesseract-ocr 您可以考虑选择合适的语言。在这种情况下,您将需要安装tesseract-ocr-LANG包,LANG三个字母的 ISO 639-2 语言代码在哪里。现在你在 16.04 repo 上有 108 种语言。 资源 Jacob Vlijm 2018-11-04T13:24:49+08:002018-11-04T13:24:49+08:00 仅仅因为它工作得非常好并且绝对应该在列表中: gimageReader 截图示例: 它在回购中(在 18.10 上回答,但已经使用了很长时间) Nalin.x.Linux 2012-11-13T17:57:31+08:002012-11-13T17:57:31+08:00 linux-智能-ocr-解决方案 免责声明 - 我与这个开源解决方案的开发密切相关 Lios 可以使用扫描仪或相机将打印件转换为文本。 它还可以从其他来源的扫描图像中生成文本,例如 Pdf、图像或包含图像的文件夹。 程序为视障人士提供了完全的可访问性。 由于我关系密切 - 我希望得到反馈。 Sourceforge 网站 源代码 论坛 Eduard Florinescu 2018-02-04T11:04:17+08:002018-02-04T11:04:17+08:00 最好和最简单的方法是使用pypdfocr它不会改变 pdf。pypdfocr 是这里的 python 模块链接。 pypdfocr your_document.pdf 最后,您将拥有另your_document_ocr.pdf一种您想要的可搜索文本方式。该应用程序不会改变图像的质量。通过添加覆盖文本稍微增加文件的大小。 我认为该命令非常简单,不需要任何 GUI。也许安装 pypdfocr 有点冗长: sudo apt install tesseract-ocr pip install pypdfocr 2018 年 11 月 3 日更新: pypdfocr自 2016 年以来不再受支持,我注意到由于未得到维护而存在一些问题。ocrmypdf(模块做了类似的工作,可以像这样使用: ocrmypdf in.pdf out.pdf 安装: pip install ocrmypdf 或者 apt install ocrmypdf Mark D 2016-11-17T11:58:35+08:002016-11-17T11:58:35+08:00 我刚刚使用pdfocr.rb取得了成功(低于 16.04) 。这在Ubuntu wiki上列出 这是一个 ppa,但 16.04 的存储库未更新。上面来自 github 的 ruby 脚本虽然仍然适用于 16.04。 你可以从 Github 下载它。您将需要安装以下软件包: ruby tesseract-ocr pdftk exactimage 然后使 pdfocr.rb 可执行并运行: ./pdfocf.rb -i source.pdf -o output.pdf 您可以选择使用该-l LANG参数。在这种情况下,您将需要安装tesseract-ocr-LANG包,LANG三个字母的 ISO 639-2 语言代码在哪里。现在你在 16.04 repo 上有 108 种语言。 Vince West 2014-11-21T07:45:20+08:002014-11-21T07:45:20+08:00 gscan2pdf 包括 3 个不同的 ocr 引擎。您可以直接扫描到程序或将您的 pdf 导入程序。我发现 Tesseract 引擎非常好用,而且非常易于使用 bmaupin 2021-07-17T06:01:57+08:002021-07-17T06:01:57+08:00 OCRFeeder已经被提及为众多选项之一,但我认为值得一提的是为什么它可以满足您的要求: 它有一个 GUI(与其他一些答案中提到的一些应用程序不同) 它易于使用(单击添加图像,然后单击识别文档) 此外,它还具有其他使其成为绝佳选择的品质: 它只是一个前端,可以使用任意数量的后端(引擎)之一,内置对 CuneiForm、GOCR、Ocrad 和 Tesseract 的支持(https://gitlab.gnome.org/GNOME/ocrfeeder/-/blob/master /src/ocrfeeder/util/configuration.py)。 它是为 Ubuntu 打包的(as ocrfeeder) 在本文发布时,它仍在积极开发中 它是 Gnome 项目的一部分
GOCR from 是一个 OCR(光学字符识别)程序。它将扫描的文本图像转换回文本文件。
CLARA是另一个不错的图形选项。
OCRAD from 是一个 OCR,可以用作独立的控制台应用程序,也可以用作其他程序的后端。
Kooka from 是一个 KDE 应用程序,但工作正常,此外您必须安装实际的 OCR 程序,如 GOCR 和 OCRAD。安装 Kooka 和 OCR 程序后,您必须将 Kooka 指向 OCR 安装位置才能使其能够将JPEG转换为文本。
OCRFeeder from 是一个文档布局分析和光学字符识别系统。
Tesseract from 是命令行实用程序,使用非常简单。您可以从 此处安装语言包tesseract-ocr-eng。
看看这个页面。
注意:
要运行tesseract转到终端并键入以下内容
Tesseract 只能读取 TIFF 文件 - 如果您有 JPEG 或 PDF 或其他文件,则必须对其进行转换。此外,文件扩展名必须是 .tif,而不是 .tiff,否则 tesseract 会出错。
您可以使用的流行 OCR 命令行工具很少(我不确定它们是否有 GUI):
正方体(自述文件、常见问题解答)(Python)
也可用于:Tesseract .NET、Tesseract iOS
用法:
GOCR
OCRopus ™(常见问题解答)(用 Python、NumPy 和 SciPy 编写)
Tessnet2(开源、OCR、Tesseract、.NET、DOTNET、C#、VB.NET、C++/CLI)
其他几个:ABBYY CLI OCR for Linux,Asprise OCR
如需更完整的列表,请查看:Wikipedia上的光学字符识别软件列表
另请参阅: - GitHub 上
wanghaisheng/awesome-ocr
有前途的 OCR 资源的精选列表。Gscan2PDF
多页 PDF 或扫描文档上的 OCR
这可能是最简单的方法。Gscan2pdf 是一个图形工具,它不仅可以让您扫描文件,还可以导入文件并对其执行 OCR。从此处安装gscan2pdf ,从 Ubuntu 软件中心或在终端中运行此命令:
Gscan2PDF 可以使用可定制的 OCR 引擎,默认为
tesseract-ocr
您可以考虑选择合适的语言。在这种情况下,您将需要安装
tesseract-ocr-LANG
包,LANG
三个字母的 ISO 639-2 语言代码在哪里。现在你在 16.04 repo 上有 108 种语言。仅仅因为它工作得非常好并且绝对应该在列表中:
gimageReader
截图示例:
它在回购中(在 18.10 上回答,但已经使用了很长时间)
linux-智能-ocr-解决方案
免责声明 - 我与这个开源解决方案的开发密切相关
Lios 可以使用扫描仪或相机将打印件转换为文本。
它还可以从其他来源的扫描图像中生成文本,例如 Pdf、图像或包含图像的文件夹。
程序为视障人士提供了完全的可访问性。
由于我关系密切 - 我希望得到反馈。
最好和最简单的方法是使用
pypdfocr
它不会改变 pdf。pypdfocr 是这里的 python 模块链接。最后,您将拥有另
your_document_ocr.pdf
一种您想要的可搜索文本方式。该应用程序不会改变图像的质量。通过添加覆盖文本稍微增加文件的大小。我认为该命令非常简单,不需要任何 GUI。也许安装 pypdfocr 有点冗长:
2018 年 11 月 3 日更新:
pypdfocr
自 2016 年以来不再受支持,我注意到由于未得到维护而存在一些问题。ocrmypdf
(模块做了类似的工作,可以像这样使用:安装:
或者
我刚刚使用pdfocr.rb取得了成功(低于 16.04) 。这在Ubuntu wiki上列出
这是一个 ppa,但 16.04 的存储库未更新。上面来自 github 的 ruby 脚本虽然仍然适用于 16.04。
你可以从 Github 下载它。您将需要安装以下软件包:
然后使 pdfocr.rb 可执行并运行:
您可以选择使用该
-l LANG
参数。在这种情况下,您将需要安装tesseract-ocr-LANG
包,LANG
三个字母的 ISO 639-2 语言代码在哪里。现在你在 16.04 repo 上有 108 种语言。gscan2pdf 包括 3 个不同的 ocr 引擎。您可以直接扫描到程序或将您的 pdf 导入程序。我发现 Tesseract 引擎非常好用,而且非常易于使用
OCRFeeder已经被提及为众多选项之一,但我认为值得一提的是为什么它可以满足您的要求:
此外,它还具有其他使其成为绝佳选择的品质:
ocrfeeder
)