AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / unix / 问题 / 412210
Accepted
Joey
Joey
Asked: 2017-12-22 01:33:48 +0800 CST2017-12-22 01:33:48 +0800 CST 2017-12-22 01:33:48 +0800 CST

AWK:如何正确显示包含多个单词并用引号括起来的列?

  • 772

我像这样使用 awk:

grep -i 'logged in' path-to-file | tail -n -10 | awk '{ print $6, "logged in on ",substr($2,1,8),$1"."; }' | sed 's/"//g'

但在$6列中,它是"nickname"由用户组成的,所以有时它只有一个单词列,但有时它有多个单词。

2017-12-21 21:54:01.714540 用户 #41 昵称:“sarah the Princes” 用户名:“guest” IP 地址:111111111,UDP 地址:udp 已登录。

而不是打印整个 sarah 王子的昵称,它只显示第一个单词是 sarah。

awk
  • 2 2 个回答
  • 654 Views

2 个回答

  • Voted
  1. Wildcard
    2017-12-22T13:30:59+08:002017-12-22T13:30:59+08:00

    试穿这个尺寸:

    sed -En '
      /^(....-..-..) (..:..:..)[^:]*nickname: "?([^":]+)"? username:.*logged in.*$/ {
        s//\3 logged in at \2 on \1./p
      }
    ' path-to-file | tail -n 10
    
    • 0
  2. Best Answer
    cas
    2017-12-22T20:43:37+08:002017-12-22T20:43:37+08:00

    您可以使用 awk 的gsub()函数将所有出现的"and "(引号后跟空格 AND 空格后跟引号)替换为任意分隔符,并将 FS 设置为该分隔符并提取您想要的内容。请注意,如果您更改 FS,则字段编号也会更改。您还需要将 FS 重置回其原始值以正确处理下一个输入行。

    在您的情况下,您还希望在更改 FS之前从字段中提取一些数据(日期和时间)。

    例如,如果./file包含 5 行,每行都是您提供的示例行的精确副本:

    $ grep -i 'logged in' ./file | tail | awk '
    { d=$1;
      t=$2; sub(/\..*/,"",t);
    
      FS="XXX";
      gsub(/" | "/,"XXX",$0);
      print $2,"logged in at", t, d;
      FS="[[:space:]]+"
    }'
    sarah the princes logged in at 21:54:01 2017-12-21
    sarah the princes logged in at 21:54:01 2017-12-21
    sarah the princes logged in at 21:54:01 2017-12-21
    sarah the princes logged in at 21:54:01 2017-12-21
    sarah the princes logged in at 21:54:01 2017-12-21
    

    我使用XXX作为字段分隔符,因为它不会出现在输入中的任何位置。对于此示例,制表符也可以正常工作,但这并不能证明字段分隔符不必是单个字符 - 如果您不能(或不容易),这将很重要确定输入中任何地方都没有使用的单个字符。

    如果您需要从双引号字段(例如 IP 地址或 udp 端口​​字段)之后gsub提取字段数据,它会变得更加复杂 - 您不能在之前提取它们,因为您无法确定它们的字段编号是什么成为。我倾向于perl在这一点上使用(或者甚至可能sed像@Wildcard的回答一样),但一种方法awk是扩展gsub函数调用的正则表达式以适应。例如用awk这个替换脚本:

    $ grep -i 'logged in' ./file | tail | awk '
    {   d=$1;
        t=$2;
        sub(/\..*/,"",t);
    
        FS="XXX";
        gsub(/" | "|address: |, /,"XXX",$0);
        sub(/ .*/,"",$8);      # get rid of trailing junk after udp port
    
        print $2,"logged in at", t, d, "as" ,$4, "from", $6":"$8;
    
        FS="[[:space:]]+"
    }'
    

    会产生这样的输出:

    sarah the princes logged in at 21:54:01 2017-12-21 as guest from 111111111:udp
    sarah the princes logged in at 21:54:01 2017-12-21 as guest from 111111111:udp
    sarah the princes logged in at 21:54:01 2017-12-21 as guest from 111111111:udp
    sarah the princes logged in at 21:54:01 2017-12-21 as guest from 111111111:udp
    sarah the princes logged in at 21:54:01 2017-12-21 as guest from 111111111:udp
    

    为了完整起见,这是perl使用 perl 核心模块的一种方法Text::ParseWords:

    #!/usr/bin/perl
    
    use strict;
    use Text::ParseWords;
    
    my $keep=1;  # keep " chars in output.  set to 0 to strip them.
    
    while(<>) {
      my @F = quotewords('\s+', $keep, $_);
    
      $F[1] =~ s/\..*//;  # strip decimal fraction from time field
      $F[10] =~ s/,//;    # strip trailing comma from IP address field
    
      # remember: perl array indices start at zero, not one.
      printf "%s logged in at %s %s as %s from %s:%s\n", @F[5,1,0,7,10,13];
    }
    

    这使用quotewords()函数 fromText::Parsewords将每个输入行拆分为字段(存储在名为 的数组中@F),对某些字段进行一些小的清理,然后使用 打印所需的字段printf。

    作为一个单行,它会写成:

    grep -i 'logged in' ./file | tail | perl -MText::ParseWords -n -e '
      @F = quotewords(q/\s+/, 1, $_);
      $F[1] =~ s/\..*//;
      $F[10] =~ s/,//;
      printf "%s logged in at %s %s as %s from %s:%s\n", @F[5,1,0,7,10,13]'
    

    请注意我如何更改'/s+'为q/\s+/-perl 有一些很棒的引用运算符,可用于避免单引号内的单引号问题。

    • 0

相关问题

  • 根据第一个逗号之前的匹配删除重复行数

  • 在另一个文件之后逐行追加行

  • 如何删除两行之间的单行

  • 重新排列字母并比较两个单词

  • 多行文件洗牌

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    JSON数组使用jq来bash变量

    • 4 个回答
  • Marko Smith

    日期可以为 GMT 时区格式化当前时间吗?[复制]

    • 2 个回答
  • Marko Smith

    bash + 通过 bash 脚本从文件中读取变量和值

    • 4 个回答
  • Marko Smith

    如何复制目录并在同一命令中重命名它?

    • 4 个回答
  • Marko Smith

    ssh 连接。X11 连接因身份验证错误而被拒绝

    • 3 个回答
  • Marko Smith

    如何下载软件包而不是使用 apt-get 命令安装它?

    • 7 个回答
  • Marko Smith

    systemctl 命令在 RHEL 6 中不起作用

    • 3 个回答
  • Marko Smith

    rsync 端口 22 和 873 使用

    • 2 个回答
  • Marko Smith

    以 100% 的利用率捕捉 /dev/loop -- 没有可用空间

    • 1 个回答
  • Marko Smith

    jq 打印子对象中所有的键和值

    • 2 个回答
  • Martin Hope
    EHerman JSON数组使用jq来bash变量 2017-12-31 14:50:58 +0800 CST
  • Martin Hope
    Christos Baziotis 在一个巨大的(70GB)、一行、文本文件中替换字符串 2017-12-30 06:58:33 +0800 CST
  • Martin Hope
    Drux 日期可以为 GMT 时区格式化当前时间吗?[复制] 2017-12-26 11:35:07 +0800 CST
  • Martin Hope
    AllisonC 如何复制目录并在同一命令中重命名它? 2017-12-22 05:28:06 +0800 CST
  • Martin Hope
    Steve “root”用户的文件权限如何工作? 2017-12-22 02:46:01 +0800 CST
  • Martin Hope
    Bagas Sanjaya 为什么 Linux 使用 LF 作为换行符? 2017-12-20 05:48:21 +0800 CST
  • Martin Hope
    Cbhihe 将默认编辑器更改为 vim for _ sudo systemctl edit [unit-file] _ 2017-12-03 10:11:38 +0800 CST
  • Martin Hope
    showkey 如何下载软件包而不是使用 apt-get 命令安装它? 2017-12-03 02:15:02 +0800 CST
  • Martin Hope
    youxiao 为什么目录 /home、/usr、/var 等都具有相同的 inode 编号 (2)? 2017-12-02 05:33:41 +0800 CST
  • Martin Hope
    user223600 gpg —list-keys 命令在将私钥导入全新安装后输出 uid [未知] 2017-11-26 18:26:02 +0800 CST

热门标签

linux bash debian shell-script text-processing ubuntu centos shell awk ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve