来自 `service | 的意外结果 grep`

Question

gabt

Asked: 2021-09-03 01:44:34 +0800 CST2021-09-03 01:44:34 +0800 CST 2021-09-03 01:44:34 +0800 CST

grep 如何返回不同数量的匹配项？

772

我需要将一个文件（24 行）grep 成两个文件（有点大）。

原始文件包含 24 行类似于此字符串：

AATGGACGCTTAAC[A|C|T][A|C|G]CGGC[A|T]TCGGAT

我执行以下操作：

grep -f aList hugeFile_N*.csv | wc -l
4396868

然后，为了仔细检查一切是否正常，我将文件分成两个文件，并通过另一个 grep 使用它们：

cat aList | head -n 12 > firstHalf
cat aList | tail -n +13 > secondHalf
grep -f firstHalf hugeFile_N*.csv | wc -l
2169008
grep -f secondHalf hugeFile_N*.csv | wc -l
2228046

现在，我期望来自两个单独的 grepped 文件的匹配总数将等于我为原始文件找到的匹配数。但是，如您所见：

2169008 + 2228046 = 4397054
4397054 != 4396868

不是这种情况。我们有 186 场比赛丢失。这里发生了什么？

我还对（实际上非常简单的）文件进行了一些调查。在这里，我从两个单独的部分 grep 的结果：

grep -f <(cat firstHalf secondHalf) hugeFile_N*.csv > together

然后我分别 grep 两半：

grep -f firstHalf hugeFile_N*.csv > separately
grep -f secondHalf hugeFile_N*.csv >> separately

而且，如前所述，匹配的数量是不同的：

wc -l together
4396868 together
wc -l separately
4397054 separately

但是，唯一匹配的数量是相同的：

sort -u together | wc -l
3735836
sort -u separately | wc -l
3735836

有趣的是，如果我 grep 原始文件中的两半，我根本没有匹配项。我想知道为什么会这样：

grep -f ../code/firstHalf ../code/aList | wc -l
0
grep -f ../code/secondHalf ../code/aList | wc -l
0

我 100% 确定两半都存在，aList因为我可以用我的编辑器看到它（它们每行 12 行，所以肉眼甚至不难看到）。

我觉得我做错了grep什么但是......什么？

里面的所有线条aList都是独一无二的。

1 个回答

Voted

ilkkachu · Answer 1 · 2021-09-03T01:54:26+08:00

grep只查找至少匹配给定模式之一的行。中的24 个模式aList，可能前半场中的一个和后半场中的一个匹配。这意味着您将在同一行上获得和的匹配grep -f firstHalf项grep -f secondHalf。分别运行模式列表的两半会加倍计算这些行。

例如

$ cat test.txt 
abc 
foo
bar
foobar
$ cat patterns 
foo
bar
$ grep -c -f patterns  test.txt 
3

但当然还有：

$ grep -c -e foo test.txt
2
$ grep -c -e bar test.txt
2

并且 2+2 > 3。

如果所有行都不同，那么计算唯一匹配行当然是消除这种影响的一种方法。您可以使用grep -n将行号添加到输出中，使每个输出行都是唯一的。当然请记住，默认情况下grep会在行中的任何位置查找匹配项，如果这不是您想要的，您需要使用grep -x.

另请注意，这意味着[A|C|T]匹配任何字符A、或。如果您不想或不需要匹配管道字符，请使用. 或者，如果您需要交替，则必须使用扩展的正则表达式 ( )，然后（带括号，而不是括号）。但这不是必需的，只要所有替代项都是单个字符。CT|[ACT]grep -E(this|that)

grep 如何返回不同数量的匹配项？

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

grep 如何返回不同数量的匹配项？

1 个回答

相关问题