pdf文件的页面到变量中

Question

Philipp

Asked: 2018-09-20 01:52:34 +0800 CST2018-09-20 01:52:34 +0800 CST 2018-09-20 01:52:34 +0800 CST

Mupdf：在 PDF 文件中查找连字符

772

当我使用mupdf. 它只能找到整个单词。例如，搜索单词“meaningless”会找到整个单词：

This is a short, staggeringly meaningless sentence.

我无法提前知道一个单词是否跨越两行 - 因此：连字符 - 与否。显式搜索连字符也太麻烦了。但是，当一个单词被包裹在一行的末尾时，它就不会被找到。搜索“meaningless”将找不到此示例中的单词：

This is a short, staggeringly meaning-
less sentence.

PDF 查看器“Evince”的行为方式相同。有没有一种（简单的）方法可以让“Mupdf”找到连字符的术语？

3 个回答

Voted

dirkt · Answer 1 · 2018-09-20T02:26:59+08:00

Best Answer

dirkt

2018-09-20T02:26:59+08:002018-09-20T02:26:59+08:00

请注意，PDF 不包含原始文本，而是包含字形放置位置的描述。在 PDF 中搜索文本取决于 (1) PDF 具有描述哪些字形对应于哪些 unicode 字符的表 (2) 将这些已翻译字符重新组合成单词的方法 (3) 关于生成应用程序如何工作的假设，例如按文本顺序放下字形（例如，当两列文本同时呈现在两列中时，这将严重失败）。

要考虑连字符，您必须实现一种算法来检测行尾的破折号（可以使用不同的字形），然后合并单词（并考虑有关连字符的特殊规则，例如德语ck）。

所以是的，它可以完成，但不容易，然后它只适用于某些语言/脚本。

3

user88036 · Answer 2 · 2018-09-20T02:10:02+08:00

user88036

2018-09-20T02:10:02+08:002018-09-20T02:10:02+08:00

在 PDF 中搜索单词实际上是查看器的一项功能。因此，每个观众都采用不同的方法来处理它将使用的内容。在实践中，我发现Okular是我测试过的所有 PDF 查看器中的最佳选择。据我所知，Mupdf 无法处理带连字符的单词。

2

JJoao · Answer 3 · 2018-09-21T08:46:49+08:00

JJoao

2018-09-21T08:46:49+08:002018-09-21T08:46:49+08:00

我不知道如何在 MuPDF 中执行此操作，但获取这些行/匹配项的一种方法是使用pdftotext

 pdftotext file.pdf - | grep 'meaningless'

默认情况下，pdftotext 取消连字符的行。

2

Mupdf：在 PDF 文件中查找连字符

如何将 GPG 私钥和公钥导出到文件

ssh 无法协商：“找不到匹配的密码”，正在拒绝 cbc

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

如何卸载内核模块“nvidia-drm”？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

Mupdf：在 PDF 文件中查找连字符

3 个回答

相关问题