AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / unix / 问题 / 667287
Accepted
gabt
gabt
Asked: 2021-09-03 01:44:34 +0800 CST2021-09-03 01:44:34 +0800 CST 2021-09-03 01:44:34 +0800 CST

grep 如何返回不同数量的匹配项?

  • 772

我需要将一个文件(24 行)grep 成两个文件(有点大)。

原始文件包含 24 行类似于此字符串:

AATGGACGCTTAAC[A|C|T][A|C|G]CGGC[A|T]TCGGAT

我执行以下操作:

grep -f aList hugeFile_N*.csv | wc -l
4396868

然后,为了仔细检查一切是否正常,我将文件分成两个文件,并通过另一个 grep 使用它们:

cat aList | head -n 12 > firstHalf
cat aList | tail -n +13 > secondHalf
grep -f firstHalf hugeFile_N*.csv | wc -l
2169008
grep -f secondHalf hugeFile_N*.csv | wc -l
2228046

现在,我期望来自两个单独的 grepped 文件的匹配总数将等于我为原始文件找到的匹配数。但是,如您所见:

2169008 + 2228046 = 4397054
4397054 != 4396868

不是这种情况。我们有 186 场比赛丢失。这里发生了什么?

我还对(实际上非​​常简单的)文件进行了一些调查。在这里,我从两个单独的部分 grep 的结果:

grep -f <(cat firstHalf secondHalf) hugeFile_N*.csv > together

然后我分别 grep 两半:

grep -f firstHalf hugeFile_N*.csv > separately
grep -f secondHalf hugeFile_N*.csv >> separately

而且,如前所述,匹配的数量是不同的:

wc -l together
4396868 together
wc -l separately
4397054 separately

但是,唯一匹配的数量是相同的:

sort -u together | wc -l
3735836
sort -u separately | wc -l
3735836

有趣的是,如果我 grep 原始文件中的两半,我根本没有匹配项。我想知道为什么会这样:

grep -f ../code/firstHalf ../code/aList | wc -l
0
grep -f ../code/secondHalf ../code/aList | wc -l
0

我 100% 确定两半都存在,aList因为我可以用我的编辑器看到它(它们每行 12 行,所以肉眼甚至不难看到)。

我觉得我做错了grep什么但是......什么?

里面的所有线条aList都是独一无二的。

grep pattern-matching
  • 1 1 个回答
  • 784 Views

1 个回答

  • Voted
  1. Best Answer
    ilkkachu
    2021-09-03T01:54:26+08:002021-09-03T01:54:26+08:00

    grep只查找至少匹配给定模式之一的行。中的24 个模式aList,可能前半场中的一个和后半场中的一个匹配。这意味着您将在同一行上获得 和 的匹配grep -f firstHalf项grep -f secondHalf。分别运行模式列表的两半会加倍计算这些行。

    例如

    $ cat test.txt 
    abc 
    foo
    bar
    foobar
    $ cat patterns 
    foo
    bar
    $ grep -c -f patterns  test.txt 
    3
    

    但当然还有:

    $ grep -c -e foo test.txt
    2
    $ grep -c -e bar test.txt
    2
    

    并且 2+2 > 3。

    如果所有行都不同,那么计算唯一匹配行当然是消除这种影响的一种方法。您可以使用grep -n将行号添加到输出中,使每个输出行都是唯一的。当然请记住,默认情况下grep会在行中的任何位置查找匹配项,如果这不是您想要的,您需要使用grep -x.

    另请注意,这意味着[A|C|T]匹配任何字符A、或。如果您不想或不需要匹配管道字符,请使用. 或者,如果您需要交替,则必须使用扩展的正则表达式 ( ),然后(带括号,而不是括号)。但这不是必需的,只要所有替代项都是单个字符。CT|[ACT]grep -E(this|that)

    • 13

相关问题

  • 来自 `service | 的意外结果 grep`

  • 读取带有单词的文本文件及其出现次数和排序的打印输出

  • 命令 ls | grep 只显示目录(当它也应该显示文件时)

  • grep 什么时候计数,什么时候不计数

  • grep --line-buffered 直到 X 行?

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    模块 i915 可能缺少固件 /lib/firmware/i915/*

    • 3 个回答
  • Marko Smith

    无法获取 jessie backports 存储库

    • 4 个回答
  • Marko Smith

    如何将 GPG 私钥和公钥导出到文件

    • 4 个回答
  • Marko Smith

    我们如何运行存储在变量中的命令?

    • 5 个回答
  • Marko Smith

    如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域?

    • 3 个回答
  • Marko Smith

    dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

    • 2 个回答
  • Marko Smith

    如何从 systemctl 服务日志中查看最新的 x 行

    • 5 个回答
  • Marko Smith

    Nano - 跳转到文件末尾

    • 8 个回答
  • Marko Smith

    grub 错误:你需要先加载内核

    • 4 个回答
  • Marko Smith

    如何下载软件包而不是使用 apt-get 命令安装它?

    • 7 个回答
  • Martin Hope
    user12345 无法获取 jessie backports 存储库 2019-03-27 04:39:28 +0800 CST
  • Martin Hope
    Carl 为什么大多数 systemd 示例都包含 WantedBy=multi-user.target? 2019-03-15 11:49:25 +0800 CST
  • Martin Hope
    rocky 如何将 GPG 私钥和公钥导出到文件 2018-11-16 05:36:15 +0800 CST
  • Martin Hope
    Evan Carroll systemctl 状态显示:“状态:降级” 2018-06-03 18:48:17 +0800 CST
  • Martin Hope
    Tim 我们如何运行存储在变量中的命令? 2018-05-21 04:46:29 +0800 CST
  • Martin Hope
    Ankur S 为什么 /dev/null 是一个文件?为什么它的功能不作为一个简单的程序来实现? 2018-04-17 07:28:04 +0800 CST
  • Martin Hope
    user3191334 如何从 systemctl 服务日志中查看最新的 x 行 2018-02-07 00:14:16 +0800 CST
  • Martin Hope
    Marko Pacak Nano - 跳转到文件末尾 2018-02-01 01:53:03 +0800 CST
  • Martin Hope
    Kidburla 为什么真假这么大? 2018-01-26 12:14:47 +0800 CST
  • Martin Hope
    Christos Baziotis 在一个巨大的(70GB)、一行、文本文件中替换字符串 2017-12-30 06:58:33 +0800 CST

热门标签

linux bash debian shell-script text-processing ubuntu centos shell awk ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve