来自 `service | 的意外结果 grep`

Question

Zac Helmberger

Asked: 2025-01-16 10:55:24 +0800 CST2025-01-16 10:55:24 +0800 CST 2025-01-16 10:55:24 +0800 CST

搜索文件中的唯一条目

772

我正在使用 Arch Linux/Debian Linux，想要一个 ASCII txt 文件中的唯一“标识符”列表。以下是我想要缩减的数据片段：

... (Received from VRW): wind ...
... (Received from 1a00): air_ ...
... (Received from 5710): air_ ...
... (Received from ####): air_ ...
... (Received from 15d8): air_ ...
... (Received from ####): air_ ...
... (Received from 6e9e): baro ...
... (Received from 6e9e): volt ...
... (Received from 6e9e): wind ...
... (Received from 6e9e): air_ ...

由于文件很大且有大量重复的“标识符”，我只想输出唯一的标识符，以便输出如下所示：

... (Received from VRW): wind ...
... (Received from 1a00): air_ ...
... (Received from 5710): air_ ...
... (Received from ####): air_ ...
... (Received from 15d8): air_ ...
... (Received from 6e9e): baro ...

更好的做法是简单地列出唯一标识符，例如，，，15d8等等。但我认为这会困难得多。6e9eVRW

根据我以前尝试过的类似问题的建议：

grep "(Received from" datafile.txt

并得到了大量的标识符列表，其中大多数是重复的。

我也尝试过：

grep "(Received from" datafile.txt | sort -u

但不能说这是否有任何区别

我也尝试过：

parallel --tag --lb grep "Received from" {} | perl -ne '$seen{$_}++ or print;' ::: Data1.txt

这可能显示了我对这些问题的无知程度。

3 个回答

Voted

Gilles Quénot · Answer 1 · 2025-01-17T19:30:18+08:00

Best Answer

Gilles Quénot

2025-01-17T19:30:18+08:002025-01-17T19:30:18+08:00

带有awk（适应$4正确的列）：

awk -F' |)' '!seen[$4]++ {print $4}' file

match()或者使用GNU 实现的扩展awk和正则表达式：

gawk '{match($0, /Received from ([^\)]+)/, a)} !seen[a[1]]++ {print a[1]}' file

grep使用支持和 perl 正则表达式的实现-o（如 GNU，grep当使用 PCRE(2) 支持构建时）和sort：

grep -oP 'Received from \K[^)]+' file | sort -u

与其他的相反，那个会从行中提取所有匹配项。

1

Stéphane Chazelas · Answer 2 · 2025-01-17T14:44:13+08:00

Stéphane Chazelas

2025-01-17T14:44:13+08:002025-01-17T14:44:13+08:00

在 perl 中，可以这样做：

perl -ne 'print if /\(Received from (.*?)\)/ && ! $seen{$1}++' datafile.txt

如果行与正则表达式匹配，并且其中第一对所匹配的内容()尚未出现，我们将打印这些行。

0

Kamil Maciorowski · Answer 3 · 2025-01-17T14:46:23+08:00

Kamil Maciorowski

2025-01-17T14:46:23+08:002025-01-17T14:46:23+08:00

更好的做法是简单地列出唯一标识符，例如，，，15d8等等。但我认为这会困难得多。6e9eVRW

我认为恰恰相反。您只提取标识符，然后很容易创建这样的列表：sort -u。处理整行并根据其片段决定是否应省略当前行，这似乎并不难。在这里，我们sed通过用它们替换整行来提取标识符：

<datafile.txt sed -n 's/.*(Received from \([^)]*\)): .*/\1/p' | sort -u

笔记：

如果一行中有两个或更多个标识符(Received from …): ，那么只提取第一个标识符。
)不支持包含的标识符。

0

搜索文件中的唯一条目

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

搜索文件中的唯一条目

3 个回答

相关问题