我有一个包含数百万行的文本文件。有些行包含相同的字母数字序列,但大小写和标点符号不同。我认为这些行是重复的。我想删除任何包含句点的重复行,但保留另一行(另一行通常包含下划线或破折号等标点符号)
输入:
000
111
12_34
12.34
123-456-789
123.456.789
A.B.C
a_b_c
qwerty
qwertx
abcdefghijklm.nopqrstuvwxy.z
a-B-cdeFghiJklmNopqRStuvwxy__Z
22.2
33.3
期望的输出:
000
111
12_34
123-456-789
a_b_c
qwerty
qwertx
a-B-cdeFghiJklmNopqRStuvwxy__Z
22.2
33.3
假设重复值是连续的!
完成这项工作的 perl 脚本。
未在大文件上测试!
类似的东西
应该做的伎俩