如何在 LyX 中配置导出格式？

Question

Rogo

Asked: 2022-04-25 13:30:33 +0800 CST2022-04-25 13:30:33 +0800 CST 2022-04-25 13:30:33 +0800 CST

如何查找可搜索的 PDF

我有一个包含许多 PDF 的文件夹。有些无疑是可搜索的。我可以只搜索和识别那些可搜索的吗？

如果 PDF 是图像，Adobe 会给出错误消息，询问您是否要将其转换为可搜索的文本。我不知道这是通用的还是 Adobe 特有的。我想一个更完整的问题是如果遇到图像，我该如何搁置文件？我会阅读关于 manpdfinfo的内容，看看我是否能找到任何可以帮助的东西。

Pablo Bianchi · Answer 1 · 2022-04-28T11:59:40+08:00

Best Answer

Pablo Bianchi

在特定文件夹上，您可以使用pdfgrep：

pdfgrep --recursive --count .

结尾为零的行不可搜索（点是匹配任何字符的正则表达式）。还，

pdfgrep -r -c . | grep -oP "\:\d*$" | sed 's/^\:0$/Not searchable/g;s/^\:[1-9][0-9]*$/Searchable/' | sort | uniq -c

会给你一些关于有多少是可搜索的统计数据。