我有 Microsoft Word 文档。有人打印了该文件,签署了它(是的。用笔。非常怀旧。)然后扫描它。显然,这个过程将文档变成了图像,使得搜索它们或从中复制和粘贴文本变得困难。
我尝试了 OCR 工具,运行该工具后,文档在视觉上与扫描件完全相同,我可以搜索、复制和粘贴文本。然而,检查 OCR 错误很麻烦,我什至不知道如何纠正我发现的任何错误。而且这似乎完全没有必要,因为我仍然有原始的 Word 文档。
如何嵌入或以其他方式组合扫描文档和原始 Word 文档,以便您看到扫描件,但文本选择和搜索的行为与原始 Word 文档类似?
首选基于在 Linux 上离线工作的开源软件(pdftk、qpdf...)的解决方案。