我有 Microsoft Word 文档。有人打印了该文件,签署了它(是的。用笔。非常怀旧。)然后扫描它。显然,这个过程将文档变成了图像,使得搜索它们或从中复制和粘贴文本变得困难。
我尝试了 OCR 工具,运行该工具后,文档在视觉上与扫描件完全相同,我可以搜索、复制和粘贴文本。然而,检查 OCR 错误很麻烦,我什至不知道如何纠正我发现的任何错误。而且这似乎完全没有必要,因为我仍然有原始的 Word 文档。
如何嵌入或以其他方式组合扫描文档和原始 Word 文档,以便您看到扫描件,但文本选择和搜索的行为与原始 Word 文档类似?
首选基于在 Linux 上离线工作的开源软件(pdftk、qpdf...)的解决方案。
由于文档的重点是它是源代码的签名副本(否则没有必要添加签名)。
然后,您需要将签名返回到应签名的位置,这意味着将其添加回源 DocX,就像在 Word 中签名一样,可以将其存档为真正的 PDF 副本。对于 Linux,您显然需要使用 Open 或 LibreOffice。否则,您需要将扫描添加到 DocX 的媒体文件夹中,并对文档 XML 进行高度精细的添加。
这样,毫无疑问它是可搜索的源签名文档,无需担心 OCR 损坏或降级。
pdftk
您可以使用和命令获得所需的结果multistamp
。首先将 M$-Word 文档导出为 PDF 文件,
document.pdf
并将签名文件导出为document_signed.pdf
. 然后将两个文档合并如下:这将创建一个
document_signed_searchable.pdf
具有您想要的功能的文件。以下是手册的相关摘录: