AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / unix / 问题 / 698451
Accepted
Bianca
Bianca
Asked: 2022-04-09 01:28:31 +0800 CST2022-04-09 01:28:31 +0800 CST 2022-04-09 01:28:31 +0800 CST

灵活的模式匹配

  • 772

我有一个看起来像这样的文件:

文件1:

0/28
7200/11
14400/11
21584/28
21600/11
28800/28
36000/11
36000/28
43200/11
43200/28
50400/11
57600/11
79200/28

在左侧(在 / 之前)我有以秒为单位的时间,而在右侧我有一个相应秒的参数值。

现在我有另一个看起来像这样的文件:

文件2:

0 14
0 15
0 20
0 28
7200 11
7200 14
7200 15

现在,我想从第二个文件中删除 FILE1 中的公共值。例如,我应该从 FILE2 中删除:

0 28
7200 11

并保持其余行不变。

我正在考虑在 bash 脚本中为 FILE1 中的每一行使用 for 循环,然后在 FILE2 中搜索它,但我无法识别该模式。如果我尝试从 awk 使用 substr 它将不起作用,因为时间没有相同的数字(0 有 1 个数字,7200 有 4 个数字)。

要阅读 FILE1 我正在做这样的事情:

IFS=$'\n' read -d '' -r -a X < ./FILE1.csv

为了编写 for 循环,我正在做这样的事情:

for x in "${X[@]}"
do
    gawk -i inplace -v var=${x} '{...}' FILE2.csv
done

我也在考虑将 FILE1 转换为这样的东西:

0 28
7200 11
14400 11
21584 28
21600 11
28800 28
36000 11
36000 28
43200 11
43200 28
50400 11
57600 11
79200 28

基本上有 2 列,但使用我上面使用的 for 和 var,如果我有超过 1 列,则将不起作用。我认为第二种方法更好,但我不知道如何让它单独处理每一列。

编辑:

如果 FILE1 是,我将如何做到这一点:

0 28
7200 11
14400 11
21584 28
21600 11
28800 28
36000 11
36000 28
43200 11
43200 28
50400 11
57600 11
79200 28

文件 2 是:

0 14 2 19
0 15 157 67
0 20 28 57
0 28 25 67
7200 11 88 14
7200 14 34 247
7200 15 364 14
bash text-processing
  • 4 4 个回答
  • 196 Views

4 个回答

  • Voted
  1. Best Answer
    αғsнιη
    2022-04-09T02:35:53+08:002022-04-09T02:35:53+08:00

    使用awk:

    awk 'NR==FNR { sec[$1, $2]; next } !($1, $2) in sec' FS='/' file1 FS=' ' file2
    0 14
    0 15
    0 20
    7200 14
    7200 15
    

    每个输入文件之前的FS(字段分隔符)定义该文件的字段分隔符。

    • 4
  2. Kusalananda
    2022-04-09T01:34:57+08:002022-04-09T01:34:57+08:00

    最后回答添加的问题:

    $ join -v 2 <(sed 's/ /:/' file1) <(sed 's/ /:/' file2) | sed 's/:/ /'
    0 14 2 19
    0 15 157 67
    0 20 28 57
    7200 14 34 247
    7200 15 364 14
    

    与join此答案中的其他变体(提供原始问题的答案)一样,这确保连接键是一个没有空格的单个字符串,然后从第二个文件中选择要连接的行key 与第一个文件中的任何条目都不匹配。

    这对必须以相同方式排序的文件做出了相同的假设。就像join一次只在内存中保留两行一样,我们仍然有相同的好处,grep以及需要将一个文件中的所有条目保留在内存中的任何其他解决方案。


    使用原始文件file1和file2您的问题,将第一个文件tr即时转换为与第二个文件相同的格式,并使用重新格式化的数据作为一组行从第二个文件中删除。

    $ grep -v -x -F -f <(tr '/' ' ' <file1) file2
    0 14
    0 15
    0 20
    7200 14
    7200 15
    

    该grep实用程序在这里用于过滤掉(删除、排除)file2与来自file1.

    该-x选项强制进行全行匹配(不是通常的子字符串匹配),并将模式用作固定字符串而不是正则表达式-F。grep该-f选项告诉实用程序从命名文件中读取模式(进程替换),并-v反转匹配的通常含义,以便输出不匹配的行。

    也与您问题中的一些文字相关:

    • 为什么使用 shell 循环处理文本被认为是不好的做法?

    一种更有效的方法是使用join. file1如果你很大,这可能是个好主意。在大量输入上,这预计会比使用grep.

    下面假设您的两个文件都以相同的方式排序,并将第二个文件转换为与第一个文件相同的格式(用斜杠替换空格)以生成没有空格的行。我们以这种方式进行转换,join默认情况下使用空格作为分隔符,我们需要考虑整行,而不仅仅是第一个空格分隔的字段。

    $ join -v 2 file1 <(tr ' ' '/' <file2) | tr '/' ' ' 
    0 14
    0 15
    0 20
    7200 14
    7200 15
    

    这将在两个数据集之间执行关系 JOIN 操作,并将第二个输入中不匹配的行返回到join(转换后的第二个文件)。由于我们希望将空格分隔的数据作为最终结果,因此我们将最后的斜杠替换为空格。

    这在任何时候都不会在内存中保存超过两行的数据,而grep变体需要将第一个文件的全部内容保留在内存中,并且还需要针对第二个文件的每一行测试该文件的每一行文件。

    • 2
  3. 赵宝磊
    2022-04-09T23:25:52+08:002022-04-09T23:25:52+08:00

    我将通过使用 shell 循环来解决这个问题。

    cat FILE2 | tr " " / | \
    while read i;do
      cat -n FILE1| grep -w "$i" | awk '{print $1}' | \
      while read j;do
        sed -i "${j}d" FILE1
      done
    done
    
    • -1
  4. RARE Kpop Manifesto
    2022-04-12T00:47:21+08:002022-04-12T00:47:21+08:00

    这是一个不需要捏造SUBSEP,遍历字段,对文件进行预排序或具有预设数量的列/字段的解决方案:

     mawk -v \_=testfile_001.txt -F/ '
     BEGIN { 
        while(getline<_) {
              __[$!(NF=NF)] 
        }
        _*=close(_)*(FS="^$") } _^($_ in __)' testfile_002.txt 
             
    0 14
    0 15
    0 20
    7200 14
    7200 15
    
    • 刚刚意识到第二个文件FS="^$"的设置要快得多,因为我们正在进行全行匹配,所以浪费时间。splitting fields

    经过测试和证明可以处理gawk 5.1.1(包括标志-c/-P)mawk 1.3.4、、、mawk 1.9.9.6和macos nawk

    -- The 4Chan Teller

    • -2

相关问题

  • 从文本文件传递变量的奇怪问题

  • 虽然行读取保持转义空间?

  • `tee` 和 `bash` 进程替换顺序

  • 运行一个非常慢的脚本直到它成功

  • 如何更改字符大小写(从小到大,反之亦然)?同时[重复]

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    模块 i915 可能缺少固件 /lib/firmware/i915/*

    • 3 个回答
  • Marko Smith

    无法获取 jessie backports 存储库

    • 4 个回答
  • Marko Smith

    如何将 GPG 私钥和公钥导出到文件

    • 4 个回答
  • Marko Smith

    我们如何运行存储在变量中的命令?

    • 5 个回答
  • Marko Smith

    如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域?

    • 3 个回答
  • Marko Smith

    dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

    • 2 个回答
  • Marko Smith

    如何从 systemctl 服务日志中查看最新的 x 行

    • 5 个回答
  • Marko Smith

    Nano - 跳转到文件末尾

    • 8 个回答
  • Marko Smith

    grub 错误:你需要先加载内核

    • 4 个回答
  • Marko Smith

    如何下载软件包而不是使用 apt-get 命令安装它?

    • 7 个回答
  • Martin Hope
    user12345 无法获取 jessie backports 存储库 2019-03-27 04:39:28 +0800 CST
  • Martin Hope
    Carl 为什么大多数 systemd 示例都包含 WantedBy=multi-user.target? 2019-03-15 11:49:25 +0800 CST
  • Martin Hope
    rocky 如何将 GPG 私钥和公钥导出到文件 2018-11-16 05:36:15 +0800 CST
  • Martin Hope
    Evan Carroll systemctl 状态显示:“状态:降级” 2018-06-03 18:48:17 +0800 CST
  • Martin Hope
    Tim 我们如何运行存储在变量中的命令? 2018-05-21 04:46:29 +0800 CST
  • Martin Hope
    Ankur S 为什么 /dev/null 是一个文件?为什么它的功能不作为一个简单的程序来实现? 2018-04-17 07:28:04 +0800 CST
  • Martin Hope
    user3191334 如何从 systemctl 服务日志中查看最新的 x 行 2018-02-07 00:14:16 +0800 CST
  • Martin Hope
    Marko Pacak Nano - 跳转到文件末尾 2018-02-01 01:53:03 +0800 CST
  • Martin Hope
    Kidburla 为什么真假这么大? 2018-01-26 12:14:47 +0800 CST
  • Martin Hope
    Christos Baziotis 在一个巨大的(70GB)、一行、文本文件中替换字符串 2017-12-30 06:58:33 +0800 CST

热门标签

linux bash debian shell-script text-processing ubuntu centos shell awk ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve