文件夹内有很多子文件夹,子文件夹内又有很多 PDF 文件。如下所示:
+- SubfolderA
| +- File1.pdf
| +- File2.pdf
|
+- SubfolderB
| +- File3.pdf
| +- File4.pdf
| +- file5.pdf
|
+- SubfolderC
+- File6.pdf
+- File7.pdf
我想找出这些文件中特定单词(例如)出现的次数keywordx
。
- 最好忽略显示有 0 个命中的文件。
- 理想情况下,显示已排序的列表,并首先显示命中数最多的文件。
使用
pdfgrep
GNUawk
并假设文件路径不包含换行符:如果您已经
pdftotext
安装(它应该在大多数 Linux 发行版的存储库中),您可以将 PDF 文件转换为文本,在文本文件中 grep 模式,然后将其删除。类似这样(使用 GNUgrep
进行-o
):或者,如果文本转换不起作用,则包括排序和错误:
请注意,排序依赖于不包含的文件名
:
。但实际上,只要
pdftotext
按照Prabhjot Singh 的建议使用,它更简单且更好。