根据第一个逗号之前的匹配删除重复行数

Question

Krackout

Asked: 2023-04-28 14:56:49 +0800 CST2023-04-28 14:56:49 +0800 CST 2023-04-28 14:56:49 +0800 CST

使用 grep、awk 或 sed [重复] 查找匹配一种模式但不匹配另一种模式的文件

772

我需要找到.php不.pl包含一个字符串（例如aaa）但包含另一个字符串（例如bbb）的文件。

我目前正在使用这个命令：

find /path/ \( -iname '*.php*' -or -name '*.pl*' \) -exec sh -c 'grep -l -v "aaa" {} | grep -l "bbb" {}' \; > resulttofile

要搜索大约一百万个文件，所以我想知道，

如果我的命令正常工作——一些眼睛采样给出了肯定的结果，
如果有可能变得更快（目前在 VM 上大约需要 2 分钟，但将添加更多文件）使用其他形式，或者awk代替sed-grep或者可能只是一个组合grep而不是两个。

该系统是 Debian GNU/Linux。

3 个回答

Voted

Stephen Kitt · Answer 1 · 2023-04-28T15:16:20+08:00

Best Answer

Stephen Kitt

2023-04-28T15:16:20+08:002023-04-28T15:16:20+08:00

您的命令无法正常工作：第一个grep将列出任何包含行不匹配的文件"aaa"，第二个grep将忽略第一个的输出，因为它有自己的文件要处理 - 因此您将获得匹配的文件列表"bbb"，无论它们是否包含"aaa"。grep如果文件不包含任何行匹配"aaa"( grep -L)，您需要要求仅列出文件，并xargs用于处理生成的文件列表并仅将其提供给第二个文件grep（或使第二个文件grep以结果为条件）第一）。

最重要的是，只要find列出的文件名不会对 shell 造成问题，它就可以工作——特别是，{}直接包含在给定的命令中sh -c意味着文件名最终可以被解释为 shell 命令（参见Is可以安全地使用 `find -exec sh -c` 吗？有关详细信息）。

假设您使用的是 GNU，以下将需要更少的grep调用并且更安全grep：

find /path/ \( -iname '*.php*' -o -name '*.pl*' \) -exec grep -LZ aaa {} + |
  xargs -r0 grep -l bbb

运算-or符是 . 的 GNU 扩展find。用于-o便携性。

7

Ed Morton · Answer 2 · 2023-04-28T20:31:55+08:00

Ed Morton

2023-04-28T20:31:55+08:002023-04-28T20:31:55+08:00

未经测试，但这应该做我认为你想要的，使用 GNU awknextfile和ENDFILE

find /path/ \( -iname '*.php*' -or -name '*.pl*' \) -exec awk '
    /aaa/{a=1} /bbb/{b=1} a&&b{nextfile} ENDFILE{if (b && !a) print FILENAME; a=b=0}
' {} + > resulttofile

上面一次只对多个文件调用 awk 一次，所以应该是高效的。

以上是如何在一个文件中匹配多个模式，然后在文件被完全读取后评估匹配组合的结果，但是正如@G-Man在评论中提到的 “恢复莫妮卡”，你可以使它更有效率在这种特定情况下，如果/当匹配时停止读取当前文件，因为成功标准不存在：aaaaaa

/aaa/{a=1; nextfile} /bbb/{b=1} ENDFILE{if (b && !a) print FILENAME; a=b=0}

5

user unknown · Answer 3 · 2023-04-28T20:05:53+08:00

user unknown

2023-04-28T20:05:53+08:002023-04-28T20:05:53+08:00

您可以将多个 -exec 指令（或其他指令）与一个 find 命令链接在一起：

find /path \( -iname '*.php*' -or -name '*.pl*' \) -exec grep -q "bbb" {} ";" \
     -exec grep -L "aaa" {} ";" > resulttofile

（换行只是为了适应 SE 的布局）。

3

使用 grep、awk 或 sed [重复] 查找匹配一种模式但不匹配另一种模式的文件

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

使用 grep、awk 或 sed [重复] 查找匹配一种模式但不匹配另一种模式的文件

3 个回答

相关问题