PDF 文件因其文本格式存储不一致而臭名昭著:如果您在 Word/Writer 中编写一些文本,应用粗体、斜体等,将其打印为 PDF,然后在 Acrobat Reader DC 或任何其他查看器中打开此 PDF 并复制文本输出回 Word,您可能会看到至少有一些格式丢失。通常情况下,您只会得到纯文本。
我的问题是:我可以相信这个纯文本与原始文本完全相同(相同的 Unicode 字符以相同的顺序)还是它也可以以某种不明显的方式被破坏?
PDF 文件因其文本格式存储不一致而臭名昭著:如果您在 Word/Writer 中编写一些文本,应用粗体、斜体等,将其打印为 PDF,然后在 Acrobat Reader DC 或任何其他查看器中打开此 PDF 并复制文本输出回 Word,您可能会看到至少有一些格式丢失。通常情况下,您只会得到纯文本。
我的问题是:我可以相信这个纯文本与原始文本完全相同(相同的 Unicode 字符以相同的顺序)还是它也可以以某种不明显的方式被破坏?
您唯一可以保证的是,PDF 在视觉上看起来与输入文档相同。PDF 是一种用于文档分发的格式,不会从一种格式转换为另一种格式。
例如,如果您输入的文本框写在不同的地方,理论上,这些文本框在 Word 中一个接一个,您不能保证文本块将被链接,甚至在输出中的顺序相同,尤其是当通过其他可能能够“优化”输出的 PDF 查看器或编辑器传递或保存。
不,PDF 故意将文本更改为“页面描述格式”,即 PDF。例如,即使将完整的段落插入到 PDF 中,在转换为页面格式时,通常会在每行的末尾插入换行符,因为它会出现在该页面上。
例如,在这个 PDF 阅读器的屏幕截图中,一个明显完整的段落,
在Notepad++中作为文本查看时,
在除最后一行之外的所有末尾显示回车/换行对。
将文本转换为 PDF 很容易;从 PDF 返回到文本是有问题的。
如果您需要能够从 PDF 中恢复文件,机器创建的 PDF 文件是最好的选择,而且这通常效果很好。
从打印/纸质文档扫描的 PDF 转换通常需要大量干预。
有些 OCR 应用程序可能更适合此类工作。