如何改进这个字符转换脚本？

Question

Age87

Asked: 2018-04-24 07:30:50 +0800 CST2018-04-24 07:30:50 +0800 CST 2018-04-24 07:30:50 +0800 CST

在保持顺序的同时删除相邻的重复行

772

我有一个文件，其中有一列名称重复多次。我想将每个重复压缩为一个，同时保留与其他同名重复不相邻的任何其他同名重复。

例如我想把左边转到右边：

Golgb1    Golgb1    
Golgb1    Akna
Golgb1    Spata20
Golgb1    Golgb1
Golgb1    Akna
Akna
Akna
Akna
Spata20
Spata20
Spata20
Golgb1
Golgb1
Golgb1
Akna
Akna
Akna

这是我一直在使用的：perl -ne 'print if ++$k{$_}==1' file.txt > file2.txt 但是，这种方法只保留了左边的一个代表（即Golb1和Akna不重复）。

有没有办法为每个块保留唯一名称，同时保留在多个不相邻块中重复的名称？

5 个回答

Voted

DopeGhoti · Answer 1 · 2018-04-24T07:40:08+08:00

Best Answer

DopeGhoti

2018-04-24T07:40:08+08:002018-04-24T07:40:08+08:00

uniq将为您执行此操作：

$ uniq inputfile
Golgb1
Akna
Spata20
Golgb1
Akna

25

RomanPerekhrest · Answer 2 · 2018-04-24T07:39:32+08:00

RomanPerekhrest

2018-04-24T07:39:32+08:002018-04-24T07:39:32+08:00

Awk解决方案：

awk '$1 != name{ print }{ name = $1 }' file.txt

输出：

Golgb1
Akna
Spata20
Golgb1
Akna

10

Sundeep · Answer 3 · 2018-04-24T07:37:09+08:00

Sundeep

2018-04-24T07:37:09+08:002018-04-24T07:37:09+08:00

试试这个 - 保存上一行并与当前行进行比较

$ perl -ne 'print if $p ne $_; $p=$_' ip.txt
Golgb1
Akna
Spata20
Golgb1
Akna

你也标记uniq了 - 你试过了吗？

$ uniq ip.txt
Golgb1
Akna
Spata20
Golgb1
Akna

6

Rakesh Sharma · Answer 4 · 2018-04-27T04:46:41+08:00

Rakesh Sharma

2018-04-27T04:46:41+08:002018-04-27T04:46:41+08:00

使用sed可以如下完成：

sed -e '$!N;/^\(.*\)\n\1$/!P;D' input_file

在这里，我们在模式空间中随时都有 2 行。当它们之间的比较失败时，我们打印第一个并将其从前面切开，然后返回并将下一行附加到模式空间中。冲洗...重复

在 slurp 模式下使用Perl，我们将整个文件视为一个长字符串，在其上应用正则表达式，为您进行比较。

perl -0777pe 's//$1/ while /^(.*\n)\1+/gm' input_file

1

MattS · Answer 5 · 2018-06-28T15:55:20+08:00

MattS

2018-06-28T15:55:20+08:002018-06-28T15:55:20+08:00

关于 Rakesh Sharma 的 sed 解决方案的问题。

如果您有一个输入文件，例如：

-126.1 48.206
-126.106 48.21
-126.11 48.212
-126.114 48.214
-126.116 48.216
-126.118 48.216
-126.128 48.222
-126.136 48.226

您希望输出文件为：

-126.1 48.206
-126.106 48.21
-126.11 48.212
-126.114 48.214
-126.116 48.216
-126.128 48.222
-126.136 48.226

注意缺少的：

-126.118 48.216

我知道我想要的命令类似于您的解决方案：

sed -e '$!N;/^\(.*\)\n\1$/!P;D' input_file

无法以正确的方式更改它以打印两列，并且只能使用第 2 列值以这种特殊方式进行排序。有小费吗？

0

在保持顺序的同时删除相邻的重复行

如何将 GPG 私钥和公钥导出到文件

ssh 无法协商：“找不到匹配的密码”，正在拒绝 cbc

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

如何卸载内核模块“nvidia-drm”？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

在保持顺序的同时删除相邻的重复行

5 个回答

相关问题