我有一个包含数百万行的文本文件。有些行包含相同的字母数字序列,但大小写和标点符号不同。我认为这些行是重复的。我想删除任何包含句点的重复行,但保留另一行(另一行通常包含下划线或破折号等标点符号)
输入:
000
111
12_34
12.34
123-456-789
123.456.789
A.B.C
a_b_c
qwerty
qwertx
abcdefghijklm.nopqrstuvwxy.z
a-B-cdeFghiJklmNopqRStuvwxy__Z
22.2
33.3
期望的输出:
000
111
12_34
123-456-789
a_b_c
qwerty
qwertx
a-B-cdeFghiJklmNopqRStuvwxy__Z
22.2
33.3