根据第一个逗号之前的匹配删除重复行数

Question

Joey

Asked: 2017-12-22 01:33:48 +0800 CST2017-12-22 01:33:48 +0800 CST 2017-12-22 01:33:48 +0800 CST

AWK：如何正确显示包含多个单词并用引号括起来的列？

772

我像这样使用 awk：

grep -i 'logged in' path-to-file | tail -n -10 | awk '{ print $6, "logged in on ",substr($2,1,8),$1"."; }' | sed 's/"//g'

但在$6列中，它是"nickname"由用户组成的，所以有时它只有一个单词列，但有时它有多个单词。

2017-12-21 21:54:01.714540 用户 #41 昵称：“sarah the Princes” 用户名：“guest” IP 地址：111111111，UDP 地址：udp 已登录。

而不是打印整个 sarah 王子的昵称，它只显示第一个单词是 sarah。

2 个回答

Voted

Wildcard · Answer 1 · 2017-12-22T13:30:59+08:00

Wildcard

2017-12-22T13:30:59+08:002017-12-22T13:30:59+08:00

试穿这个尺寸：

sed -En '
  /^(....-..-..) (..:..:..)[^:]*nickname: "?([^":]+)"? username:.*logged in.*$/ {
    s//\3 logged in at \2 on \1./p
  }
' path-to-file | tail -n 10

0

cas · Answer 2 · 2017-12-22T20:43:37+08:00

您可以使用 awk 的gsub()函数将所有出现的"and "（引号后跟空格 AND 空格后跟引号）替换为任意分隔符，并将 FS 设置为该分隔符并提取您想要的内容。请注意，如果您更改 FS，则字段编号也会更改。您还需要将 FS 重置回其原始值以正确处理下一个输入行。

在您的情况下，您还希望在更改 FS之前从字段中提取一些数据（日期和时间）。

例如，如果./file包含 5 行，每行都是您提供的示例行的精确副本：

$ grep -i 'logged in' ./file | tail | awk '
{ d=$1;
  t=$2; sub(/\..*/,"",t);

  FS="XXX";
  gsub(/" | "/,"XXX",$0);
  print $2,"logged in at", t, d;
  FS="[[:space:]]+"
}'
sarah the princes logged in at 21:54:01 2017-12-21
sarah the princes logged in at 21:54:01 2017-12-21
sarah the princes logged in at 21:54:01 2017-12-21
sarah the princes logged in at 21:54:01 2017-12-21
sarah the princes logged in at 21:54:01 2017-12-21

我使用XXX作为字段分隔符，因为它不会出现在输入中的任何位置。对于此示例，制表符也可以正常工作，但这并不能证明字段分隔符不必是单个字符 - 如果您不能（或不容易），这将很重要确定输入中任何地方都没有使用的单个字符。

如果您需要从双引号字段（例如 IP 地址或 udp 端口字段）之后gsub提取字段数据，它会变得更加复杂 - 您不能在之前提取它们，因为您无法确定它们的字段编号是什么成为。我倾向于perl在这一点上使用（或者甚至可能sed像@Wildcard的回答一样），但一种方法awk是扩展gsub函数调用的正则表达式以适应。例如用awk这个替换脚本：

$ grep -i 'logged in' ./file | tail | awk '
{   d=$1;
    t=$2;
    sub(/\..*/,"",t);

    FS="XXX";
    gsub(/" | "|address: |, /,"XXX",$0);
    sub(/ .*/,"",$8);      # get rid of trailing junk after udp port

    print $2,"logged in at", t, d, "as" ,$4, "from", $6":"$8;

    FS="[[:space:]]+"
}'

会产生这样的输出：

sarah the princes logged in at 21:54:01 2017-12-21 as guest from 111111111:udp
sarah the princes logged in at 21:54:01 2017-12-21 as guest from 111111111:udp
sarah the princes logged in at 21:54:01 2017-12-21 as guest from 111111111:udp
sarah the princes logged in at 21:54:01 2017-12-21 as guest from 111111111:udp
sarah the princes logged in at 21:54:01 2017-12-21 as guest from 111111111:udp

为了完整起见，这是perl使用 perl 核心模块的一种方法Text::ParseWords：

#!/usr/bin/perl

use strict;
use Text::ParseWords;

my $keep=1;  # keep " chars in output.  set to 0 to strip them.

while(<>) {
  my @F = quotewords('\s+', $keep, $_);

  $F[1] =~ s/\..*//;  # strip decimal fraction from time field
  $F[10] =~ s/,//;    # strip trailing comma from IP address field

  # remember: perl array indices start at zero, not one.
  printf "%s logged in at %s %s as %s from %s:%s\n", @F[5,1,0,7,10,13];
}

这使用quotewords()函数 fromText::Parsewords将每个输入行拆分为字段（存储在名为的数组中@F），对某些字段进行一些小的清理，然后使用打印所需的字段printf。

作为一个单行，它会写成：

grep -i 'logged in' ./file | tail | perl -MText::ParseWords -n -e '
  @F = quotewords(q/\s+/, 1, $_);
  $F[1] =~ s/\..*//;
  $F[10] =~ s/,//;
  printf "%s logged in at %s %s as %s from %s:%s\n", @F[5,1,0,7,10,13]'

请注意我如何更改'/s+'为q/\s+/-perl 有一些很棒的引用运算符，可用于避免单引号内的单引号问题。

AWK：如何正确显示包含多个单词并用引号括起来的列？

JSON数组使用jq来bash变量

日期可以为 GMT 时区格式化当前时间吗？[复制]

bash + 通过 bash 脚本从文件中读取变量和值

如何复制目录并在同一命令中重命名它？

ssh 连接。X11 连接因身份验证错误而被拒绝

如何下载软件包而不是使用 apt-get 命令安装它？

systemctl 命令在 RHEL 6 中不起作用

rsync 端口 22 和 873 使用

以 100% 的利用率捕捉 /dev/loop -- 没有可用空间

jq 打印子对象中所有的键和值

AWK：如何正确显示包含多个单词并用引号括起来的列？

2 个回答

相关问题