开源首选,但不是必需的。
我有 Adobe Acrobat 8,并且非常喜欢 OCR 功能,它基本上可以在扫描文档的顶部放置一个不可见的 OCR 文本层。因此,您在屏幕上看到的是原始扫描文档,但结果是可搜索的。
我正在寻找的是一种自动化这个过程的方法。我目前有一些用于处理和存档扫描文件的脚本,并且正在寻找可以直接插入到此批处理过程中的内容,以类似于我可以使用 Acrobat 执行的方式执行 OCR。
欢迎大家提出建议,谢谢!
开源首选,但不是必需的。
我有 Adobe Acrobat 8,并且非常喜欢 OCR 功能,它基本上可以在扫描文档的顶部放置一个不可见的 OCR 文本层。因此,您在屏幕上看到的是原始扫描文档,但结果是可搜索的。
我正在寻找的是一种自动化这个过程的方法。我目前有一些用于处理和存档扫描文件的脚本,并且正在寻找可以直接插入到此批处理过程中的内容,以类似于我可以使用 Acrobat 执行的方式执行 OCR。
欢迎大家提出建议,谢谢!
我在一个公司文件归档项目中实现了这一点。扫描文件为 tif 文件(单页)。然后使用Cuneiform创建单个 tif 的 hocr 文件。然后使用hocr2pdf输出 PDF 文件。如果有多个扫描页面,我使用 gs 将 PDF 合并为一个 PDF 文档。效果非常好,OCR 足以满足我们的需求,并且可以在任何 PDF 查看器中进行搜索。
你看过 WatchOCR 吗?您可以从http://www.watchocr.com下载它。它是一个免费和开源的 OCR 服务器,可以将仅图像 pdf 转换为来自监视文件夹或网络共享的文本可搜索 pdf。
我喜欢至强回答的声音,尽管OCRopus听起来很有趣。