cat、pipe 和 acroread - 为什么它偶尔会失败？

Question

Boden

Asked: 2009-08-15 10:09:38 +0800 CST2009-08-15 10:09:38 +0800 CST 2009-08-15 10:09:38 +0800 CST

有什么工具可以以类似于 Acrobat 的 OCR 功能的方式自动对扫描的 PDF 文件进行 OCR？[关闭]

772

开源首选，但不是必需的。

我有 Adobe Acrobat 8，并且非常喜欢 OCR 功能，它基本上可以在扫描文档的顶部放置一个不可见的 OCR 文本层。因此，您在屏幕上看到的是原始扫描文档，但结果是可搜索的。

我正在寻找的是一种自动化这个过程的方法。我目前有一些用于处理和存档扫描文件的脚本，并且正在寻找可以直接插入到此批处理过程中的内容，以类似于我可以使用 Acrobat 执行的方式执行 OCR。

欢迎大家提出建议，谢谢！

3 个回答

Voted

xeon · Answer 1 · 2009-08-15T10:19:06+08:00

Best Answer

xeon

2009-08-15T10:19:06+08:002009-08-15T10:19:06+08:00

我在一个公司文件归档项目中实现了这一点。扫描文件为 tif 文件（单页）。然后使用Cuneiform创建单个 tif 的 hocr 文件。然后使用hocr2pdf输出 PDF 文件。如果有多个扫描页面，我使用 gs 将 PDF 合并为一个 PDF 文档。效果非常好，OCR 足以满足我们的需求，并且可以在任何 PDF 查看器中进行搜索。

8

rlangner · Answer 2 · 2010-07-07T04:40:59+08:00

rlangner

2010-07-07T04:40:59+08:002010-07-07T04:40:59+08:00

你看过 WatchOCR 吗？您可以从http://www.watchocr.com下载它。它是一个免费和开源的 OCR 服务器，可以将仅图像 pdf 转换为来自监视文件夹或网络共享的文本可搜索 pdf。

1

Kara Marfia · Answer 3 · 2009-08-15T10:26:00+08:00

Kara Marfia

2009-08-15T10:26:00+08:002009-08-15T10:26:00+08:00

我喜欢至强回答的声音，尽管OCRopus听起来很有趣。

0

有什么工具可以以类似于 Acrobat 的 OCR 功能的方式自动对扫描的 PDF 文件进行 OCR？[关闭]

SFTP 使用什么端口？

从 IP 地址解析主机名

如何按大小对 du -h 输出进行排序

命令行列出 Windows Active Directory 组中的用户？

Windows 中执行反向 DNS 查找的命令行实用程序是什么？

如何检查 Windows 机器上的端口是否被阻塞？

我应该打开哪个端口以允许远程桌面？

什么是 Pem 文件，它与其他 OpenSSL 生成的密钥文件格式有何不同？

如何确定bash变量是否为空？

有什么工具可以以类似于 Acrobat 的 OCR 功能的方式自动对扫描的 PDF 文件进行 OCR？[关闭]

3 个回答

相关问题