如何从命令行仅安装安全更新？关于如何管理更新的一些提示

Question

j0h

Asked: 2019-03-29 13:51:53 +0800 CST2019-03-29 13:51:53 +0800 CST 2019-03-29 13:51:53 +0800 CST

如何计算文件中文本的出现次数？

772

我有一个按 IP 地址排序的日志文件，我想查找每个唯一 IP 地址的出现次数。我怎么能用 bash 做到这一点？可能会在 ip 旁边列出出现次数，例如：

5.135.134.16 count: 5
13.57.220.172: count 30
18.206.226 count:2

等等。

以下是日志示例：

5.135.134.16 - - [23/Mar/2019:08:42:54 -0400] "GET /wp-login.php HTTP/1.1" 200 2988 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
5.135.134.16 - - [23/Mar/2019:08:42:55 -0400] "GET /wp-login.php HTTP/1.1" 200 2988 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
5.135.134.16 - - [23/Mar/2019:08:42:55 -0400] "POST /wp-login.php HTTP/1.1" 200 3836 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
5.135.134.16 - - [23/Mar/2019:08:42:55 -0400] "POST /wp-login.php HTTP/1.1" 200 3988 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
5.135.134.16 - - [23/Mar/2019:08:42:56 -0400] "POST /xmlrpc.php HTTP/1.1" 200 413 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
13.57.220.172 - - [23/Mar/2019:11:01:05 -0400] "GET /wp-login.php HTTP/1.1" 200 2988 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
13.57.220.172 - - [23/Mar/2019:11:01:06 -0400] "POST /wp-login.php HTTP/1.1" 200 3985 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
13.57.220.172 - - [23/Mar/2019:11:01:07 -0400] "GET /wp-login.php HTTP/1.1" 200 2988 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
13.57.220.172 - - [23/Mar/2019:11:01:08 -0400] "POST /wp-login.php HTTP/1.1" 200 3833 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
13.57.220.172 - - [23/Mar/2019:11:01:09 -0400] "GET /wp-login.php HTTP/1.1" 200 2988 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
13.57.220.172 - - [23/Mar/2019:11:01:11 -0400] "POST /wp-login.php HTTP/1.1" 200 3836 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
13.57.220.172 - - [23/Mar/2019:11:01:12 -0400] "GET /wp-login.php HTTP/1.1" 200 2988 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
13.57.220.172 - - [23/Mar/2019:11:01:15 -0400] "POST /wp-login.php HTTP/1.1" 200 3837 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
13.57.220.172 - - [23/Mar/2019:11:01:17 -0400] "POST /xmlrpc.php HTTP/1.1" 200 413 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
13.57.233.99 - - [23/Mar/2019:04:17:45 -0400] "GET / HTTP/1.1" 200 25160 "-" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36"
18.206.226.75 - - [23/Mar/2019:21:58:07 -0400] "GET /wp-login.php HTTP/1.1" 200 2988 "https://www.google.com/url?3a622303df89920683e4421b2cf28977" "Mozilla/5.0 (Windows NT 6.2; rv:33.0) Gecko/20100101 Firefox/33.0"
18.206.226.75 - - [23/Mar/2019:21:58:07 -0400] "POST /wp-login.php HTTP/1.1" 200 3988 "https://www.google.com/url?3a622303df89920683e4421b2cf28977" "Mozilla/5.0 (Windows NT 6.2; rv:33.0) Gecko/20100101 Firefox/33.0"
18.213.10.181 - - [23/Mar/2019:14:45:42 -0400] "GET /wp-login.php HTTP/1.1" 200 2988 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
18.213.10.181 - - [23/Mar/2019:14:45:42 -0400] "GET /wp-login.php HTTP/1.1" 200 2988 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"
18.213.10.181 - - [23/Mar/2019:14:45:42 -0400] "GET /wp-login.php HTTP/1.1" 200 2988 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:62.0) Gecko/20100101 Firefox/62.0"

8 个回答

Voted

Mikael Flora · Answer 1 · 2019-03-29T14:04:34+08:00

Mikael Flora

2019-03-29T14:04:34+08:002019-03-29T14:04:34+08:00

您可以使用cut和uniq工具：

cut -d ' ' -f1 test.txt  | uniq -c
      5 5.135.134.16
      9 13.57.220.172
      1 13.57.233.99
      2 18.206.226.75
      3 18.213.10.181

解释：

cut -d ' ' -f1：提取第一个字段（IP地址）
uniq -c：报告重复行并显示出现次数

40

steeldriver · Answer 2 · 2019-03-29T14:12:14+08:00

steeldriver

2019-03-29T14:12:14+08:002019-03-29T14:12:14+08:00

如果您不特别需要给定的输出格式，那么我会推荐已经发布的基于cut+uniq的答案

如果您确实需要给定的输出格式，那么在 Awk 中执行此操作的单程方法是

awk '{c[$1]++} END{for(i in c) print i, "count: " c[i]}' log

当输入已经排序时，这有点不理想，因为它不必要地将所有 IP 存储到内存中 - 在预先排序的情况下（更直接等效于uniq -c），更好但更复杂的方法是：

awk '
  NR==1 {last=$1} 
  $1 != last {print last, "count: " c[last]; last = $1} 
  {c[$1]++} 
  END {print last, "count: " c[last]}
'

前任。

$ awk 'NR==1 {last=$1} $1 != last {print last, "count: " c[last]; last = $1} {c[$1]++} END{print last, "count: " c[last]}' log
5.135.134.16 count: 5
13.57.220.172 count: 9
13.57.233.99 count: 1
18.206.226.75 count: 2
18.213.10.181 count: 3

14

dessert · Answer 3 · 2019-03-29T14:08:39+08:00

Best Answer

dessert

2019-03-29T14:08:39+08:002019-03-29T14:08:39+08:00

您可以使用grepanduniq作为地址列表，遍历它们并grep再次进行计数：

for i in $(<log grep -o '^[^ ]*' | uniq); do
  printf '%s count %d\n' "$i" $(<log grep -c "$i")
done

grep -o '^[^ ]*'输出从开头 ( ^) 到每行的第一个空格的每个字符，uniq删除重复的行，从而为您留下 IP 地址列表。由于命令替换，for循环遍历此列表，打印当前处理的 IP，后跟“count”和计数。后者由计算grep -c，它计算至少有一个匹配的行数。

示例运行

$ for i in $(<log grep -o '^[^ ]*'|uniq);do printf '%s count %d\n' "$i" $(<log grep -c "$i");done
5.135.134.16 count 5
13.57.220.172 count 9
13.57.233.99 count 1
18.206.226.75 count 2
18.213.10.181 count 3

13

pa4080 · Answer 4 · 2019-03-29T14:07:10+08:00

pa4080

2019-03-29T14:07:10+08:002019-03-29T14:07:10+08:00

这是一种可能的解决方案：

IN_FILE="file.log"
for IP in $(awk '{print $1}' "$IN_FILE" | sort -u)
do
    echo -en "${IP}\tcount: "
    grep -c "$IP" "$IN_FILE"
done

替换file.log为实际文件名。
命令替换表达式$(awk '{print $1}' "$IN_FILE" | sort -u)将提供第一列的唯一值列表。
然后grep -c将计算文件中的每个值。

$ IN_FILE="file.log"; for IP in $(awk '{print $1}' "$IN_FILE" | sort -u); do echo -en "${IP}\tcount: "; grep -c "$IP" "$IN_FILE"; done
13.57.220.172   count: 9
13.57.233.99    count: 1
18.206.226.75   count: 2
18.213.10.181   count: 3
5.135.134.16    count: 5

8

terdon · Answer 5 · 2019-03-30T08:14:49+08:00

terdon

2019-03-30T08:14:49+08:002019-03-30T08:14:49+08:00

一些 Perl：

$ perl -lae '$k{$F[0]}++; }{ print "$_ count: $k{$_}" for keys(%k)' log 
13.57.233.99 count: 1
18.206.226.75 count: 2
13.57.220.172 count: 9
5.135.134.16 count: 5
18.213.10.181 count: 3

这与Steeldriver 的 awk 方法相同，但在 Perl 中。导致 perl 自动将-a每个输入行拆分为数组@F，其第一个元素（IP）是$F[0]。因此，$k{$F[0]}++将创建 hash %k，其键是 IP，其值是每个 IP 被看到的次数。“}{在处理完所有输入后，在最后做剩下的工作”是时髦的 perlspeak。因此，最后，脚本将遍历散列的键并打印当前键 ( $_) 及其值 ( $k{$_})。

而且，只是为了让人们不会认为 perl 强迫你编写看起来像神秘涂鸦的脚本，这是相同的东西，形式不那么简洁：

perl -e '
  while (my $line=<STDIN>){
    @fields = split(/ /, $line);
    $ip = $fields[0];
    $counts{$ip}++;
  }
  foreach $ip (keys(%counts)){
    print "$ip count: $counts{$ip}\n"
  }' < log

5

Y. Pradhan · Answer 6 · 2019-03-30T10:38:24+08:00

也许这不是 OP 想要的；但是，如果我们知道 IP 地址长度将限制为 15 个字符，则可以uniq单独使用命令来更快地显示来自巨大日志文件的具有唯一 IP 的计数：

$ uniq -w 15 -c log

5 5.135.134.16 - - [23/Mar/2019:08:42:54 -0400] ...
9 13.57.220.172 - - [23/Mar/2019:11:01:05 -0400] ...
1 13.57.233.99 - - [23/Mar/2019:04:17:45 -0400] ...
2 18.206.226.75 - - [23/Mar/2019:21:58:07 -0400] ...
3 18.213.10.181 - - [23/Mar/2019:14:45:42 -0400] ...

选项：

-w N比较不超过N行中的字符

-c将按出现次数为行添加前缀

或者，对于我更喜欢的精确格式输出awk（也应该适用于 IPV6 地址），ymmv。

$ awk 'NF { print $1 }' log | sort -h | uniq -c | awk '{printf "%s count: %d\n", $2,$1 }'

5.135.134.16 count: 5
13.57.220.172 count: 9
13.57.233.99 count: 1
18.206.226.75 count: 2
18.213.10.181 count: 3

请注意，uniq如果它们不相邻，则不会检测输入文件中的重复行，因此sort文件可能需要。

wjandrea · Answer 7 · 2019-04-01T09:25:43+08:00

wjandrea

2019-04-01T09:25:43+08:002019-04-01T09:25:43+08:00

FWIW，Python 3：

from collections import Counter

with open('sample.log') as file:
    counts = Counter(line.split()[0] for line in file)

for ip_address, count in counts.items():
    print('%-15s  count: %d' % (ip_address, count))

输出：

13.57.233.99     count: 1
18.213.10.181    count: 3
5.135.134.16     count: 5
18.206.226.75    count: 2
13.57.220.172    count: 9

1

PhD · Answer 8 · 2019-03-31T10:01:55+08:00

PhD

2019-03-31T10:01:55+08:002019-03-31T10:01:55+08:00

cut -f1 -d- my.log | sort | uniq -c

说明：将 my.log 的第一个字段用破折号分割-并排序。uniq需要排序输入。-c告诉它计算出现次数。

0

如何计算文件中文本的出现次数？

示例运行

如何运行 .sh 脚本？

如何安装 .tar.gz（或 .tar.bz2）文件？

如何列出所有已安装的软件包

无法锁定管理目录 (/var/lib/dpkg/) 是另一个进程在使用它吗？

如何计算文件中文本的出现次数？

8 个回答

示例运行

相关问题