如何改进这个字符转换脚本？

Question

user9371654

Asked: 2019-04-20 02:19:54 +0800 CST2019-04-20 02:19:54 +0800 CST 2019-04-20 02:19:54 +0800 CST

删除第一列重复的行

772

我有一个文件，其中字符串由特殊字符串（不是逗号或分隔符）分隔，例如<vvv>. 我想检查第一个字段中的所有字符串是否都是唯一的。如果发现同一字段的重复行，我想删除任何重复的行（保留第一次出现）。

例子：

aaa<vvv>bbb<vvv>ccc
xxx<vvv>yyy<vvv>zzz
aaa<vvv>new<vvv>new2
111<vvv>222<vvv>333

我想得到：

aaa<vvv>bbb<vvv>ccc
xxx<vvv>yyy<vvv>zzz
111<vvv>222<vvv>333

我们删除aaa<vvv>new<vvv>new2是因为aaa已经出现了。

我不喜欢我们awk，除非它是唯一的解决方案。它的语法对我来说有点复杂，因为我不熟悉 Linux。

4 个回答

Voted

Kusalananda · Answer 1 · 2019-04-20T02:48:19+08:00

不用awk 太多：

$ awk -v OFS="<" '{ print NR, $0 }' file | sort -t '<' -u -k2,2 | sort -t '<' -k1,1n | cut -d '<' -f 2-
aaa<vvv>bbb<vvv>ccc
xxx<vvv>yyy<vvv>zzz
111<vvv>222<vvv>333

这仅用于awk将行号插入<到原始数据中。我们这样做是为了能够跟踪原始行的顺序。我们将<其用作行号和行的其余部分之间的分隔符，因为这也显示为原始第一个字段和行的其余部分之间的分隔符。

在awk用于插入行号的管道的第一阶段之后，数据将如下所示

1<aaa<vvv>bbb<vvv>ccc
2<xxx<vvv>yyy<vvv>zzz
3<aaa<vvv>new<vvv>new2
4<111<vvv>222<vvv>333

管道的下一步在第二个字段（第一个原始字段）上对其进行排序，删除重复项。结果将是

4<111<vvv>222<vvv>333
1<aaa<vvv>bbb<vvv>ccc
2<xxx<vvv>yyy<vvv>zzz

第二个sort通过对第一个字段上的行进行数字排序来恢复原始行顺序，我们得到

1<aaa<vvv>bbb<vvv>ccc
2<xxx<vvv>yyy<vvv>zzz
4<111<vvv>222<vvv>333

然后cut从第一个字段（和插入的分隔符）中删除数字。

一个完全不使用就给出有序输出的解决方案awk看起来像

$ sort -t '<' -u -k1,1 file
111<vvv>222<vvv>333
aaa<vvv>bbb<vvv>ccc
xxx<vvv>yyy<vvv>zzz

这本质上是上述管道中的第二步，它在第一个字段上对文件进行排序，同时删除重复项。

一个awk解决方案看起来像

$ awk -F '<' '!seen[$1]++' file
aaa<vvv>bbb<vvv>ccc
xxx<vvv>yyy<vvv>zzz
111<vvv>222<vvv>333

这会将第一个字段作为键存储在一个名为的关联数组中seen，并后递增关联的值。如果给定键的数组中的值为零（即，以前没有见过第一个字段），则打印该行。

Cbhihe · Answer 2 · 2019-04-21T00:25:33+08:00

Cbhihe

2019-04-21T00:25:33+08:002019-04-21T00:25:33+08:00

或等效地既不awk也不cut，但与sed：

$ sed '=' file \
      | sed 'N;s/\n/</' \
      | sort -t"<" -u -k2,2 \
      | sort -t"<" -k1,1 \
      | sed 's/^[0-9]*<//'
aaa<vvv>bbb<vvv>ccc
xxx<vvv>yyy<vvv>zzz
111<vvv>222<vvv>333

但这非常笨拙。@Kusalananda 的最后一个（基于 awk 的）解决方案要好得多。

只是为了教学，sed上面的前两个块相当于 Kusalananda 更紧凑的awkcmd ：

sed '=' file, 打印行号以供将来订购
sed 'N;s/\n/</', 在模式空间中附加下一个输入行（即“连接当前行和下一行”）并将行尾替换\n为<.

第三个也是最后一个sed花絮，sed 's/^[0-9]*<//'替换行号和放在每行开头的“<”，什么都没有。

有关更多详细信息sed，$ info sed请在您的控制台中发布。

0

Rakesh Sharma · Answer 3 · 2019-04-21T10:24:43+08:00

Rakesh Sharma

2019-04-21T10:24:43+08:002019-04-21T10:24:43+08:00

使用 GNU sed 我们可以完成给定的任务：

$ sed -Ene '
   G
   /^([^<]+)<vvv>.*\n\1(\n|$)/d
   P;s/<vvv>.*//;H
 ' input.txt

将第一个字段存储在保持空间中，并将其与当前行的第一个字段进行比较。只有当它们不同时，才更新保持，同时打印当前行。

0

Praveen Kumar BS · Answer 4 · 2019-04-23T08:29:47+08:00

Praveen Kumar BS

2019-04-23T08:29:47+08:002019-04-23T08:29:47+08:00

尝试了以下2种方法

Method1

 awk -F "<" '{if (!seen[$1]++)print }' filename

Method2

awk -F "<" '!a[$1]++' filename

输出

aaa<vvv>bbb<vvv>ccc
xxx<vvv>yyy<vvv>zzz
111<vvv>222<vvv>333

0

删除第一列重复的行

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

删除第一列重复的行

4 个回答

相关问题