根据第一个逗号之前的匹配删除重复行数

Question

Age87

Asked: 2018-04-24 09:19:54 +0800 CST2018-04-24 09:19:54 +0800 CST 2018-04-24 09:19:54 +0800 CST

根据三列中的两列的信息保持唯一的行

772

假设你有一个这样的文件：

NW_006521251.1  428 84134
NW_006521251.1  511 84135
NW_006521038.1  202 84155
NW_006521038.1  1743 84153
NW_006521038.1  1743 84154
NW_006520495.1  198 84159
NW_006520086.1  473 84178
NW_006520086.1  511 84180

我想保留基于第 1 列和第 2 列的唯一行（即不仅仅是第 2 列，因为该数字可能在第 1 列的不同标签下重复）。

这样我得到这个作为输出（NW_006521038.1 1743从列表中删除第二个重复）：

    NW_006521251.1  428 84134
    NW_006521251.1  511 84135
    NW_006521038.1  202 84155
    NW_006521038.1  1743 84153
    NW_006520495.1  198 84159
    NW_006520086.1  473 84178
    NW_006520086.1  511 84180

有没有办法用 awk 做到这一点？使用uniq file不起作用。

2 个回答

Voted

glenn jackman · Answer 1 · 2018-04-24T09:28:29+08:00

Best Answer

glenn jackman

2018-04-24T09:28:29+08:002018-04-24T09:28:29+08:00

正是为此，有一个“著名的” awk 习语。你想做：

awk '!seen[$1,$2]++' file

这将创建一个以 2 列作为键的关联数组“可见”。使用后增量运算符，以便在您第一次遇到该键时，该值为零。第一次看到密钥时，使用否定运算符获得“真”结果。

19

Dennis Williamson · Answer 2 · 2018-04-24T14:35:56+08:00

Dennis Williamson

2018-04-24T14:35:56+08:002018-04-24T14:35:56+08:00

如果您不介意对输出进行排序：

sort -u -k1,2 file

-u- 独特的
-k1,2- 将字段 1 和 2 一起用作键

7

根据三列中的两列的信息保持唯一的行

如何将 GPG 私钥和公钥导出到文件

ssh 无法协商：“找不到匹配的密码”，正在拒绝 cbc

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

如何卸载内核模块“nvidia-drm”？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

根据三列中的两列的信息保持唯一的行

2 个回答

相关问题