AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / unix / 问题 / 789719
Accepted
Zac Helmberger
Zac Helmberger
Asked: 2025-01-16 10:55:24 +0800 CST2025-01-16 10:55:24 +0800 CST 2025-01-16 10:55:24 +0800 CST

搜索文件中的唯一条目

  • 772
该问题已从 Server Fault迁移,因为它可以在 Unix & Linux Stack Exchange 上找到答案。3 天前迁移 。

我正在使用 Arch Linux/Debian Linux,想要一个 ASCII txt 文件中的唯一“标识符”列表。以下是我想要缩减的数据片段:

... (Received from VRW): wind ...
... (Received from 1a00): air_ ...
... (Received from 5710): air_ ...
... (Received from ####): air_ ...
... (Received from 15d8): air_ ...
... (Received from ####): air_ ...
... (Received from 6e9e): baro ...
... (Received from 6e9e): volt ...
... (Received from 6e9e): wind ...
... (Received from 6e9e): air_ ...

由于文件很大且有大量重复的“标识符”,我只想输出唯一的标识符,以便输出如下所示:

... (Received from VRW): wind ...
... (Received from 1a00): air_ ...
... (Received from 5710): air_ ...
... (Received from ####): air_ ...
... (Received from 15d8): air_ ...
... (Received from 6e9e): baro ...

更好的做法是简单地列出唯一标识符,例如,,,15d8等等。但我认为这会困难得多。6e9eVRW

根据我以前尝试过的类似问题的建议:

grep "(Received from" datafile.txt

并得到了大量的标识符列表,其中大多数是重复的。

我也尝试过:

grep "(Received from" datafile.txt | sort -u

但不能说这是否有任何区别

我也尝试过:

parallel --tag --lb grep "Received from" {} | perl -ne '$seen{$_}++ or print;' ::: Data1.txt

这可能显示了我对这些问题的无知程度。

grep
  • 3 3 个回答
  • 50 Views

3 个回答

  • Voted
  1. Best Answer
    Gilles Quénot
    2025-01-17T19:30:18+08:002025-01-17T19:30:18+08:00

    带有awk(适应$4正确的列):

    awk -F' |)' '!seen[$4]++ {print $4}' file
    

    match()或者使用GNU 实现的扩展awk和正则表达式:

    gawk '{match($0, /Received from ([^\)]+)/, a)} !seen[a[1]]++ {print a[1]}' file
    

    grep使用支持和 perl 正则表达式的实现-o(如 GNU,grep当使用 PCRE(2) 支持构建时)和sort:

    grep -oP 'Received from \K[^)]+' file | sort -u
    

    与其他的相反,那个会从行中提取所有匹配项。

    • 1
  2. Stéphane Chazelas
    2025-01-17T14:44:13+08:002025-01-17T14:44:13+08:00

    在 perl 中,可以这样做:

    perl -ne 'print if /\(Received from (.*?)\)/ && ! $seen{$1}++' datafile.txt
    

    如果行与正则表达式匹配,并且其中第一对所匹配的内容()尚未出现,我们将打印这些行。

    • 0
  3. Kamil Maciorowski
    2025-01-17T14:46:23+08:002025-01-17T14:46:23+08:00

    更好的做法是简单地列出唯一标识符,例如,,,15d8等等。但我认为这会困难得多。6e9eVRW

    我认为恰恰相反。您只提取标识符,然后很容易创建这样的列表:sort -u。处理整行并根据其片段决定是否应省略当前行,这似乎并不难。在这里,我们sed通过用它们替换整行来提取标识符:

    <datafile.txt sed -n 's/.*(Received from \([^)]*\)): .*/\1/p' | sort -u
    

    笔记:

    • 如果一行中有两个或更多个标识符(Received from …): ,那么只提取第一个标识符。
    • )不支持包含的标识符。
    • 0

相关问题

  • 来自 `service | 的意外结果 grep`

  • 读取带有单词的文本文件及其出现次数和排序的打印输出

  • 命令 ls | grep 只显示目录(当它也应该显示文件时)

  • grep 什么时候计数,什么时候不计数

  • grep --line-buffered 直到 X 行?

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    模块 i915 可能缺少固件 /lib/firmware/i915/*

    • 3 个回答
  • Marko Smith

    无法获取 jessie backports 存储库

    • 4 个回答
  • Marko Smith

    如何将 GPG 私钥和公钥导出到文件

    • 4 个回答
  • Marko Smith

    我们如何运行存储在变量中的命令?

    • 5 个回答
  • Marko Smith

    如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域?

    • 3 个回答
  • Marko Smith

    dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

    • 2 个回答
  • Marko Smith

    如何从 systemctl 服务日志中查看最新的 x 行

    • 5 个回答
  • Marko Smith

    Nano - 跳转到文件末尾

    • 8 个回答
  • Marko Smith

    grub 错误:你需要先加载内核

    • 4 个回答
  • Marko Smith

    如何下载软件包而不是使用 apt-get 命令安装它?

    • 7 个回答
  • Martin Hope
    user12345 无法获取 jessie backports 存储库 2019-03-27 04:39:28 +0800 CST
  • Martin Hope
    Carl 为什么大多数 systemd 示例都包含 WantedBy=multi-user.target? 2019-03-15 11:49:25 +0800 CST
  • Martin Hope
    rocky 如何将 GPG 私钥和公钥导出到文件 2018-11-16 05:36:15 +0800 CST
  • Martin Hope
    Evan Carroll systemctl 状态显示:“状态:降级” 2018-06-03 18:48:17 +0800 CST
  • Martin Hope
    Tim 我们如何运行存储在变量中的命令? 2018-05-21 04:46:29 +0800 CST
  • Martin Hope
    Ankur S 为什么 /dev/null 是一个文件?为什么它的功能不作为一个简单的程序来实现? 2018-04-17 07:28:04 +0800 CST
  • Martin Hope
    user3191334 如何从 systemctl 服务日志中查看最新的 x 行 2018-02-07 00:14:16 +0800 CST
  • Martin Hope
    Marko Pacak Nano - 跳转到文件末尾 2018-02-01 01:53:03 +0800 CST
  • Martin Hope
    Kidburla 为什么真假这么大? 2018-01-26 12:14:47 +0800 CST
  • Martin Hope
    Christos Baziotis 在一个巨大的(70GB)、一行、文本文件中替换字符串 2017-12-30 06:58:33 +0800 CST

热门标签

linux bash debian shell-script text-processing ubuntu centos shell awk ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve