通过命令的标准输出以编程方式导出环境变量[重复]

Question

Ronnie

Asked: 2024-10-31 00:37:21 +0800 CST2024-10-31 00:37:21 +0800 CST 2024-10-31 00:37:21 +0800 CST

查找 PDF 文件中某个单词出现的次数

772

文件夹内有很多子文件夹，子文件夹内又有很多 PDF 文件。如下所示：

+- SubfolderA
|  +- File1.pdf
|  +- File2.pdf
|
+- SubfolderB
|  +- File3.pdf
|  +- File4.pdf
|  +- file5.pdf
|
+- SubfolderC
   +- File6.pdf
   +- File7.pdf

我想找出这些文件中特定单词（例如）出现的次数keywordx。

最好忽略显示有 0 个命中的文件。
理想情况下，显示已排序的列表，并首先显示命中数最多的文件。

2 个回答

Voted

Prabhjot Singh · Answer 1 · 2024-10-31T05:18:37+08:00

Best Answer

Prabhjot Singh

2024-10-31T05:18:37+08:002024-10-31T05:18:37+08:00

使用pdfgrepGNUawk并假设文件路径不包含换行符：

word="keywordx"
pdfgrep -rPc "\b\Q$word\E\b" | gawk -F: '
  $NF != 0 {hits[$0] = $NF}
  END{
    PROCINFO["sorted_in"] = "@val_num_desc"
    for (i in hits) print i
  }'

2

terdon · Answer 2 · 2024-10-31T00:55:25+08:00

如果您已经pdftotext安装（它应该在大多数 Linux 发行版的存储库中），您可以将 PDF 文件转换为文本，在文本文件中 grep 模式，然后将其删除。类似这样（使用 GNUgrep进行-o）：

pattern="keywordx"
for file in */*.pdf; do 
  txt=${file%.pdf}.txt
  num=$(pdftotext -- "$file" 2>/dev/null && grep -o -- "$pattern" "$txt" | wc -l)
  rm -- "$txt"
  [ "$num" -gt 0 ] && printf '%s: %d\n' "$file" "$num"
done

或者，如果文本转换不起作用，则包括排序和错误：

pattern="keywordx"
for file in */*.pdf; do 
  txt=${file%.pdf}.txt
  if pdftotext -- "$file" 2>/dev/null; then
    num=$(grep -o -- "$pattern" "$txt" | wc -l)
    rm -- "$txt"
    [ "$num" -gt 0 ] && printf '%s: %d\n' "$file" "$num"
  else
    printf 'Failed to convert "%s" to text\n' "$file" >&2
  fi
done | sort -t: -nk2,2

请注意，排序依赖于不包含的文件名:。

但实际上，只要pdftotext按照Prabhjot Singh 的建议使用，它更简单且更好。

查找 PDF 文件中某个单词出现的次数

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

查找 PDF 文件中某个单词出现的次数

2 个回答

相关问题