我有PDF文件。
我需要从中复制一些文本以保留其格式(因此我需要保存斜体、粗体、_下划线_、字体大小和颜色、链接)。
看来我需要将 PDF 中的文本复制为 HTML 或 RTF(或类似的东西)。
我试过了:
- 从 Atril 复制文本,粘贴到 LibreOffice Writer - 即使我选择粘贴为 RTF,也会得到纯文本;
- 从 Atril 复制文本,粘贴到 Abiword - 得到纯文本;
- 从 Okular 复制文本,粘贴到 LibreOffice 或 Abiword - 得到纯文本;
- 使用 - 将 PDF 转换为 HTML
pdf2htmlex
,但从 Web 浏览器复制会使所有文本再次变为纯文本; - 将 PDF 导入 LibreOffice Impress - 保留格式,但由于大量文本块,复制很困难。
我应该使用 Ubuntu 16.04 LTS 存储库中的哪个软件来解决我的问题?
这一般是不可能的。即使使用 Acrobat Reader Pro 也不行。Adobe 建议另存为 Word doc 或 HTML。Evince 或 Okular 将允许您在 utf8 中使用查看器中的 复制和粘贴,但大多数情况下会丢弃格式。
正如您所说,最好的选择可能是使用 LibreOffice 导入,它试图保留映射到 odf 的 pdf 格式的许多功能。此外,您可以使用该
pdftk
工具从较大的 pdf 文件中选择特定页面,然后将它们导入 LibreOffice。