sed 模式匹配日期

Question

cablewelo2ma

Asked: 2019-08-04 04:44:11 +0800 CST2019-08-04 04:44:11 +0800 CST 2019-08-04 04:44:11 +0800 CST

sed/awk：在第一次出现后删除相似的行

772

我有：

constant1apple_____constant2asdfkjo___constant3
constant1apple_____constant2fdlkjef___constant3
constant1watermelonconstant2sdlfkeio__constant3
constant1banana____constant2asdfoie___constant3
constant1apple_____constant2soeivmn___constant3
constant1orange____constant2vjflkdslj_constant3
constant1watermelonconstant2xcvlvdiosnconstant3
constant1orange____constant2wieonvow__constant3
constant1apple_____constant2woemnivoiwconstant3

我只想保留第一次出现水果名称的行

输出应该是这样的：

constant1apple_____constant2asdfkjo___constant3
constant1watermelonconstant2sdlfkeio__constant3
constant1banana____constant2asdfoie___constant3
constant1orange____constant2vjflkdslj_constant3

重要笔记：

水果的名字可以是我不知道的任何名字，但它们的长度都是一样的
水果名称后面的随机字符串也可以是任何东西，但也有特定的长度

不知道该怎么做

1 个回答

Voted

user1686 · Answer 1 · 2019-08-04T05:25:17+08:00

使用 awk（或 perl，或大多数其他具有关联数组的语言）这样做会更容易一些：

awk '!seen[substr($0, 10, 10)]++' input.txt

awk '{ fruit = substr($0, 10, 10); if (!seen[fruit]++) print }' input.txt

（awk 脚本的结构类似于match1 {code1} match2 {code2} ...第一个变体仅指定匹配条件而不是代码，使用隐式默认值{print;}；第二个变体做相反的事情但实现相同的事情。任何更容易使用的。）

这seen是一个关联数组（一个 dict / hashmap），它计算到目前为止第二个字段被看到的次数。对于每一行，seen[x]++递增保持的值seen[x]并同时返回先前的值。如果之前的值为 0，则表示第一次看到水果。

在这个版本中，substr(input, start, count)用于从$0（代表整行）中提取10个字符，从第10个字符开始。（在之前的版本中，数组键$2用于第二个空格分隔的列。）

awk 效果很好，但取决于您计划进行多少过滤（如果它不仅仅是提取唯一的第二列），最好从更通用的语言开始：

#!/usr/bin/env python3
import sys
seen = set()
for line in sys.stdin:
    fruit = line[9:19]
    if fruit not in seen:
        seen.add(fruit)
        sys.stdout.write(line)

或者，如果名称可以安全地重新排序，您可以使用uniq删除重复项：

cat input.txt | sort | uniq --skip-chars=9 --check-chars=10

如果您只需要水果名称本身，忽略其余部分，您可以通过先提取列并使用uniq剩下的列来实现：

cat input.txt | cut -c 10-19 | sort | uniq

cat input.txt | sed -r 's/^.{9}(.{10}).*/\1/' | sort | uniq

sed/awk：在第一次出现后删除相似的行

Windows 照片查看器因为内存不足而无法运行？

支持结束后如何激活 WindowsXP？

远程桌面间歇性冻结

Windows 10 服务称为 AarSvc_70f961。它是什么，我该如何禁用它？

子网掩码 /32 是什么意思？

鼠标指针在 Windows 中按下的箭头键上移动？

VirtualBox 无法以 VERR_NEM_VM_CREATE_FAILED 启动

应用程序不会出现在 MacBook 的摄像头和麦克风隐私设置中

ssl.SSLCertVerificationError: [SSL: CERTIFICATE_VERIFY_FAILED] 证书验证失败：无法获取本地颁发者证书 (_ssl.c:1056)

我如何知道 Windows 安装在哪个驱动器上？

sed/awk：在第一次出现后删除相似的行

1 个回答

相关问题