grep 从 $START 到 $END 的一组行并且在 $MIDDLE 中包含匹配项

Question

Asked: 2024-06-26 22:04:51 +0800 CST2024-06-26 22:04:51 +0800 CST 2024-06-26 22:04:51 +0800 CST

按类别对行进行分组，避免重复

772

我在 Linux 机器上有一个制表符分隔的文件，其中包含两列。第一列包含名称，第二列包含 GO ID（这些 ID 始终GO:为后跟七位数字的格式），以逗号分隔。我需要做的是，在每一行中只保留一个名称和一个唯一的 GO ID，丢弃重复项和多个条目。

由此

Pr_g33687.t1    GO:0003735,GO:0003735,GO:0003735,GO:0005840,GO:0006412,GO:0022618,GO:0022625
Pr_g33687.t1    GO:0003735,GO:0009129,GO:0006412
Pr_g15244.t1    GO:0000978,GO:0003700,GO:0005634,GO:0006357,GO:0034605
Pr_g15244.t1    GO:0003700,GO:0006355,GO:0043565
Pr_g15244.t1    GO:0003700,GO:0006355,GO:0043565

进入这个

Pr_g33687.t1    GO:0003735,GO:0005840,GO:0006412,GO:0022618,GO:0022625,GO:0009129
Pr_g15244.t1    GO:0000978,GO:0003700,GO:0005634,GO:0006357,GO:0034605,GO:0006355,GO:0043565

我将非常感激您的帮助。谢谢。

遥感

4 个回答

Voted

Sundeep · Answer 1 · 2024-06-26T23:03:16+08:00

使用awk和datamash：

$ awk -F'\t' '{n=split($2,a,","); for(i=1;i<=n;i++) print $1 FS a[i]}' ip.txt | datamash -g1 unique 2
Pr_g33687.t1    GO:0003735,GO:0005840,GO:0006412,GO:0009129,GO:0022618,GO:0022625
Pr_g15244.t1    GO:0000978,GO:0003700,GO:0005634,GO:0006355,GO:0006357,GO:0034605,GO:0043565

该awk命令将输入拆分开，使得以逗号分隔的值位于不同的行中而不是分组。

然后该datamash命令将它们重新组合在一起并删除重复项。

glenn jackman · Answer 2 · 2024-06-26T23:08:19+08:00

Sundeep 的答案比在 awk 中完成所有工作更整洁。它使用 GNU awk 专门处理数组的数组

gawk -F'[\t,]' '
    { for (i=2; i<=NF; i++) data[$1][$i] = 1 }
    END {
        for (name in data) {
            printf "%s\t", name
            sep=""
            for (go in data[name]) {
                printf "%s%s", sep, go
                sep = ","
            }
            print ""
        }
    }
' file

Pr_g15244.t1    GO:0006355,GO:0003700,GO:0006357,GO:0043565,GO:0000978,GO:0005634,GO:0034605
Pr_g33687.t1    GO:0022625,GO:0005840,GO:0022618,GO:0003735,GO:0009129,GO:0006412

请注意，这不会保留输入 GO 编号的顺序。您可以通过将其添加到 END 块来对结果进行排序：

PROCINFO["sorted_in"] = "@ind_str_asc"

steeldriver · Answer 3 · 2024-06-27T00:14:48+08:00

该问题与将制表符分隔文件中的逗号分隔列表扩展为单独的行共享元素，并且您可以在 Miller中使用类似的方法来分解、唯一化，然后分解数据：

$ mlr --nidx --fs tab nest --evar ',' -f 2 then uniq -a then nest --ivar ',' -f 2 file
Pr_g33687.t1    GO:0003735,GO:0005840,GO:0006412,GO:0022618,GO:0022625,GO:0009129
Pr_g15244.t1    GO:0000978,GO:0003700,GO:0005634,GO:0006357,GO:0034605,GO:0006355,GO:0043565

Ed Morton · Answer 4 · 2024-06-28T19:27:30+08:00

如果您不介意输出顺序与输入顺序不同（它们将在输出中按字母顺序排序），则使用任意版本的强制性 POSIX 工具awk并实现Decorate-Sort-Undecoratesort习语的变体：$1$2

#!/usr/bin/env bash

awk -F'[\t,]' '{ for (i=2; i<=NF; i++ ) print $1, $i }' "${@:--}" |
sort -u |
awk -v OFS='\t' '
    $1 != prev {
        printf "%s%s", (NR>1 ? ORS : ""), $1
        sep = OFS
        prev = $1
    }
    {
        printf "%s%s", sep, $2
        sep = ","
    }
    END { print "" }
'

$ ./tst.sh file
Pr_g15244.t1    GO:0000978,GO:0003700,GO:0005634,GO:0006355,GO:0006357,GO:0034605,GO:0043565
Pr_g33687.t1    GO:0003735,GO:0005840,GO:0006412,GO:0009129,GO:0022618,GO:0022625

或者，假设输入按$1值分组，如问题中的示例所示，只使用任何awk，只在内存中一次存储一个数据，并按照输入中出现的顺序$1输出$1和值：$2

$ cat tst.sh
#!/usr/bin/env bash

awk -F'[\t,]' -v OFS='\t' '
    $1 != prev {
        if ( NR > 1 ) {
            print out
        }
        out = prev = $1
        sep = OFS
        delete seen
    }
    {
        for ( i=2; i<= NF; i++ ) {
            if ( !seen[$i]++ ) {
                out = out sep $i
                sep = ","
            }
        }
    }
    END { print out }
' "${@:--}"

$ ./tst.sh file
Pr_g33687.t1    GO:0003735,GO:0005840,GO:0006412,GO:0022618,GO:0022625,GO:0009129
Pr_g15244.t1    GO:0000978,GO:0003700,GO:0005634,GO:0006357,GO:0034605,GO:0006355,GO:0043565

按类别对行进行分组，避免重复

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

按类别对行进行分组，避免重复

4 个回答

相关问题