Chrome 一直要求保存 PDF 并且从不打开它

Question

sigil

Asked: 2021-03-04 10:04:38 +0800 CST2021-03-04 10:04:38 +0800 CST 2021-03-04 10:04:38 +0800 CST

PDF 文件是否保证一致地存储纯文本？

772

PDF 文件因其文本格式存储不一致而臭名昭著：如果您在 Word/Writer 中编写一些文本，应用粗体、斜体等，将其打印为 PDF，然后在 Acrobat Reader DC 或任何其他查看器中打开此 PDF 并复制文本输出回 Word，您可能会看到至少有一些格式丢失。通常情况下，您只会得到纯文本。

我的问题是：我可以相信这个纯文本与原始文本完全相同（相同的 Unicode 字符以相同的顺序）还是它也可以以某种不明显的方式被破坏？

3 个回答

Voted

Mokubai · Answer 1 · 2021-03-04T10:15:02+08:00

Mokubai

2021-03-04T10:15:02+08:002021-03-04T10:15:02+08:00

您唯一可以保证的是，PDF 在视觉上看起来与输入文档相同。PDF 是一种用于文档分发的格式，不会从一种格式转换为另一种格式。

例如，如果您输入的文本框写在不同的地方，理论上，这些文本框在 Word 中一个接一个，您不能保证文本块将被链接，甚至在输出中的顺序相同，尤其是当通过其他可能能够“优化”输出的 PDF 查看器或编辑器传递或保存。

1

DrMoishe Pippik · Answer 2 · 2021-03-04T10:21:56+08:00

Best Answer

DrMoishe Pippik

2021-03-04T10:21:56+08:002021-03-04T10:21:56+08:00

不，PDF 故意将文本更改为“页面描述格式”，即 PDF。例如，即使将完整的段落插入到 PDF 中，在转换为页面格式时，通常会在每行的末尾插入换行符，因为它会出现在该页面上。

例如，在这个 PDF 阅读器的屏幕截图中，一个明显完整的段落，

在Notepad++中作为文本查看时，

在除最后一行之外的所有末尾显示回车/换行对。

将文本转换为 PDF 很容易；从 PDF 返回到文本是有问题的。

0

John · Answer 3 · 2021-03-04T10:24:45+08:00

John

2021-03-04T10:24:45+08:002021-03-04T10:24:45+08:00

如果您需要能够从 PDF 中恢复文件，机器创建的 PDF 文件是最好的选择，而且这通常效果很好。

从打印/纸质文档扫描的 PDF 转换通常需要大量干预。

有些 OCR 应用程序可能更适合此类工作。

0

PDF 文件是否保证一致地存储纯文本？

如何减少“vmmem”进程的消耗？

从 Microsoft Stream 下载视频

Google Chrome DevTools 无法解析 SourceMap：chrome-extension

Windows 照片查看器因为内存不足而无法运行？

支持结束后如何激活 WindowsXP？

远程桌面间歇性冻结

子网掩码 /32 是什么意思？

鼠标指针在 Windows 中按下的箭头键上移动？

VirtualBox 无法以 VERR_NEM_VM_CREATE_FAILED 启动

应用程序不会出现在 MacBook 的摄像头和麦克风隐私设置中

PDF 文件是否保证一致地存储纯文本？

3 个回答

相关问题