AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / ubuntu / 问题 / 1129521
Accepted
j0h
j0h
Asked: 2019-03-29 13:51:53 +0800 CST2019-03-29 13:51:53 +0800 CST 2019-03-29 13:51:53 +0800 CST

如何计算文件中文本的出现次数?

  • 772

我有一个按 IP 地址排序的日志文件,我想查找每个唯一 IP 地址的出现次数。我怎么能用 bash 做到这一点?可能会在 ip 旁边列出出现次数,例如:

5.135.134.16 count: 5
13.57.220.172: count 30
18.206.226 count:2

等等。

以下是日志示例:

5.135.134.16 - - [23/Mar/2019:08:42:54 -0400] "GET /wp-login.php HTTP/1.1" 200 2988 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
5.135.134.16 - - [23/Mar/2019:08:42:55 -0400] "GET /wp-login.php HTTP/1.1" 200 2988 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
5.135.134.16 - - [23/Mar/2019:08:42:55 -0400] "POST /wp-login.php HTTP/1.1" 200 3836 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
5.135.134.16 - - [23/Mar/2019:08:42:55 -0400] "POST /wp-login.php HTTP/1.1" 200 3988 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
5.135.134.16 - - [23/Mar/2019:08:42:56 -0400] "POST /xmlrpc.php HTTP/1.1" 200 413 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
13.57.220.172 - - [23/Mar/2019:11:01:05 -0400] "GET /wp-login.php HTTP/1.1" 200 2988 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
13.57.220.172 - - [23/Mar/2019:11:01:06 -0400] "POST /wp-login.php HTTP/1.1" 200 3985 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
13.57.220.172 - - [23/Mar/2019:11:01:07 -0400] "GET /wp-login.php HTTP/1.1" 200 2988 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
13.57.220.172 - - [23/Mar/2019:11:01:08 -0400] "POST /wp-login.php HTTP/1.1" 200 3833 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
13.57.220.172 - - [23/Mar/2019:11:01:09 -0400] "GET /wp-login.php HTTP/1.1" 200 2988 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
13.57.220.172 - - [23/Mar/2019:11:01:11 -0400] "POST /wp-login.php HTTP/1.1" 200 3836 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
13.57.220.172 - - [23/Mar/2019:11:01:12 -0400] "GET /wp-login.php HTTP/1.1" 200 2988 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
13.57.220.172 - - [23/Mar/2019:11:01:15 -0400] "POST /wp-login.php HTTP/1.1" 200 3837 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
13.57.220.172 - - [23/Mar/2019:11:01:17 -0400] "POST /xmlrpc.php HTTP/1.1" 200 413 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
13.57.233.99 - - [23/Mar/2019:04:17:45 -0400] "GET / HTTP/1.1" 200 25160 "-" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36"
18.206.226.75 - - [23/Mar/2019:21:58:07 -0400] "GET /wp-login.php HTTP/1.1" 200 2988 "https://www.google.com/url?3a622303df89920683e4421b2cf28977" "Mozilla/5.0 (Windows NT 6.2; rv:33.0) Gecko/20100101 Firefox/33.0"
18.206.226.75 - - [23/Mar/2019:21:58:07 -0400] "POST /wp-login.php HTTP/1.1" 200 3988 "https://www.google.com/url?3a622303df89920683e4421b2cf28977" "Mozilla/5.0 (Windows NT 6.2; rv:33.0) Gecko/20100101 Firefox/33.0"
18.213.10.181 - - [23/Mar/2019:14:45:42 -0400] "GET /wp-login.php HTTP/1.1" 200 2988 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
18.213.10.181 - - [23/Mar/2019:14:45:42 -0400] "GET /wp-login.php HTTP/1.1" 200 2988 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
18.213.10.181 - - [23/Mar/2019:14:45:42 -0400] "GET /wp-login.php HTTP/1.1" 200 2988 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
command-line bash sort uniq
  • 8 8 个回答
  • 4795 Views

8 个回答

  • Voted
  1. Mikael Flora
    2019-03-29T14:04:34+08:002019-03-29T14:04:34+08:00

    您可以使用cut和uniq工具:

    cut -d ' ' -f1 test.txt  | uniq -c
          5 5.135.134.16
          9 13.57.220.172
          1 13.57.233.99
          2 18.206.226.75
          3 18.213.10.181
    

    解释 :

    • cut -d ' ' -f1:提取第一个字段(IP地址)
    • uniq -c:报告重复行并显示出现次数
    • 40
  2. steeldriver
    2019-03-29T14:12:14+08:002019-03-29T14:12:14+08:00

    如果您不特别需要给定的输出格式,那么我会推荐已经发布的基于cut+uniq的答案

    如果您确实需要给定的输出格式,那么在 Awk 中执行此操作的单程方法是

    awk '{c[$1]++} END{for(i in c) print i, "count: " c[i]}' log
    

    当输入已经排序时,这有点不理想,因为它不必要地将所有 IP 存储到内存中 - 在预先排序的情况下(更直接等效于uniq -c),更好但更复杂的方法是:

    awk '
      NR==1 {last=$1} 
      $1 != last {print last, "count: " c[last]; last = $1} 
      {c[$1]++} 
      END {print last, "count: " c[last]}
    '
    

    前任。

    $ awk 'NR==1 {last=$1} $1 != last {print last, "count: " c[last]; last = $1} {c[$1]++} END{print last, "count: " c[last]}' log
    5.135.134.16 count: 5
    13.57.220.172 count: 9
    13.57.233.99 count: 1
    18.206.226.75 count: 2
    18.213.10.181 count: 3
    
    • 14
  3. Best Answer
    dessert
    2019-03-29T14:08:39+08:002019-03-29T14:08:39+08:00

    您可以使用grepanduniq作为地址列表,遍历它们并grep再次进行计数:

    for i in $(<log grep -o '^[^ ]*' | uniq); do
      printf '%s count %d\n' "$i" $(<log grep -c "$i")
    done
    

    grep -o '^[^ ]*'输出从开头 ( ^) 到每行的第一个空格的每个字符,uniq删除重复的行,从而为您留下 IP 地址列表。由于命令替换,for循环遍历此列表,打印当前处理的 IP,后跟“count”和计数。后者由 计算grep -c,它计算至少有一个匹配的行数。

    示例运行

    $ for i in $(<log grep -o '^[^ ]*'|uniq);do printf '%s count %d\n' "$i" $(<log grep -c "$i");done
    5.135.134.16 count 5
    13.57.220.172 count 9
    13.57.233.99 count 1
    18.206.226.75 count 2
    18.213.10.181 count 3
    
    • 13
  4. pa4080
    2019-03-29T14:07:10+08:002019-03-29T14:07:10+08:00

    这是一种可能的解决方案:

    IN_FILE="file.log"
    for IP in $(awk '{print $1}' "$IN_FILE" | sort -u)
    do
        echo -en "${IP}\tcount: "
        grep -c "$IP" "$IN_FILE"
    done
    
    • 替换file.log为实际文件名。
    • 命令替换表达式$(awk '{print $1}' "$IN_FILE" | sort -u)将提供第一列的唯一值列表。
    • 然后grep -c将计算文件中的每个值。

    $ IN_FILE="file.log"; for IP in $(awk '{print $1}' "$IN_FILE" | sort -u); do echo -en "${IP}\tcount: "; grep -c "$IP" "$IN_FILE"; done
    13.57.220.172   count: 9
    13.57.233.99    count: 1
    18.206.226.75   count: 2
    18.213.10.181   count: 3
    5.135.134.16    count: 5
    
    • 8
  5. terdon
    2019-03-30T08:14:49+08:002019-03-30T08:14:49+08:00

    一些 Perl:

    $ perl -lae '$k{$F[0]}++; }{ print "$_ count: $k{$_}" for keys(%k)' log 
    13.57.233.99 count: 1
    18.206.226.75 count: 2
    13.57.220.172 count: 9
    5.135.134.16 count: 5
    18.213.10.181 count: 3
    

    这与Steeldriver 的 awk 方法相同,但在 Perl 中。导致 perl 自动将-a每个输入行拆分为数组@F,其第一个元素(IP)是$F[0]。因此,$k{$F[0]}++将创建 hash %k,其键是 IP,其值是每个 IP 被看到的次数。“}{在处理完所有输入后,在最后做剩下的工作”是时髦的 perlspeak。因此,最后,脚本将遍历散列的键并打印当前键 ( $_) 及其值 ( $k{$_})。

    而且,只是为了让人们不会认为 perl 强迫你编写看起来像神秘涂鸦的脚本,这是相同的东西,形式不那么简洁:

    perl -e '
      while (my $line=<STDIN>){
        @fields = split(/ /, $line);
        $ip = $fields[0];
        $counts{$ip}++;
      }
      foreach $ip (keys(%counts)){
        print "$ip count: $counts{$ip}\n"
      }' < log
    
    • 5
  6. Y. Pradhan
    2019-03-30T10:38:24+08:002019-03-30T10:38:24+08:00

    也许这不是 OP 想要的;但是,如果我们知道 IP 地址长度将限制为 15 个字符,则可以uniq单独使用命令来更快地显示来自巨大日志文件的具有唯一 IP 的计数:

    $ uniq -w 15 -c log
    
    5 5.135.134.16 - - [23/Mar/2019:08:42:54 -0400] ...
    9 13.57.220.172 - - [23/Mar/2019:11:01:05 -0400] ...
    1 13.57.233.99 - - [23/Mar/2019:04:17:45 -0400] ...
    2 18.206.226.75 - - [23/Mar/2019:21:58:07 -0400] ...
    3 18.213.10.181 - - [23/Mar/2019:14:45:42 -0400] ...
    

    选项:

    -w N比较不超过N行中的字符

    -c将按出现次数为行添加前缀

    或者,对于我更喜欢​​的精确格式输出awk(也应该适用于 IPV6 地址),ymmv。

    $ awk 'NF { print $1 }' log | sort -h | uniq -c | awk '{printf "%s count: %d\n", $2,$1 }'
    
    5.135.134.16 count: 5
    13.57.220.172 count: 9
    13.57.233.99 count: 1
    18.206.226.75 count: 2
    18.213.10.181 count: 3
    

    请注意,uniq如果它们不相邻,则不会检测输入文件中的重复行,因此sort文件可能需要。

    • 4
  7. wjandrea
    2019-04-01T09:25:43+08:002019-04-01T09:25:43+08:00

    FWIW,Python 3:

    from collections import Counter
    
    with open('sample.log') as file:
        counts = Counter(line.split()[0] for line in file)
    
    for ip_address, count in counts.items():
        print('%-15s  count: %d' % (ip_address, count))
    

    输出:

    13.57.233.99     count: 1
    18.213.10.181    count: 3
    5.135.134.16     count: 5
    18.206.226.75    count: 2
    13.57.220.172    count: 9
    
    • 1
  8. PhD
    2019-03-31T10:01:55+08:002019-03-31T10:01:55+08:00
    cut -f1 -d- my.log | sort | uniq -c
    

    说明:将 my.log 的第一个字段用破折号分割-并排序。uniq需要排序输入。-c告诉它计算出现次数。

    • 0

相关问题

  • 如何从命令行仅安装安全更新?关于如何管理更新的一些提示

  • 如何从命令行刻录双层 dvd iso

  • 如何从命令行判断机器是否需要重新启动?

  • 文件权限如何工作?文件权限用户和组

  • 如何在 Vim 中启用全彩支持?

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    如何运行 .sh 脚本?

    • 16 个回答
  • Marko Smith

    如何安装 .tar.gz(或 .tar.bz2)文件?

    • 14 个回答
  • Marko Smith

    如何列出所有已安装的软件包

    • 24 个回答
  • Marko Smith

    无法锁定管理目录 (/var/lib/dpkg/) 是另一个进程在使用它吗?

    • 25 个回答
  • Martin Hope
    Flimm 如何在没有 sudo 的情况下使用 docker? 2014-06-07 00:17:43 +0800 CST
  • Martin Hope
    Ivan 如何列出所有已安装的软件包 2010-12-17 18:08:49 +0800 CST
  • Martin Hope
    La Ode Adam Saputra 无法锁定管理目录 (/var/lib/dpkg/) 是另一个进程在使用它吗? 2010-11-30 18:12:48 +0800 CST
  • Martin Hope
    David Barry 如何从命令行确定目录(文件夹)的总大小? 2010-08-06 10:20:23 +0800 CST
  • Martin Hope
    jfoucher “以下软件包已被保留:”为什么以及如何解决? 2010-08-01 13:59:22 +0800 CST
  • Martin Hope
    David Ashford 如何删除 PPA? 2010-07-30 01:09:42 +0800 CST

热门标签

10.10 10.04 gnome networking server command-line package-management software-recommendation sound xorg

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve