我有一个日志文件如下:
12-02-2022 15:18:22 +0330 SOCK5.6699 00000 user144 97.251.107.125:38605 1.1.1.1:443 51766 169369 0 CONNECT 1.1.1.1:443
12-02-2022 15:18:27 +0330 SOCK5.6699 00094 user156 32.99.193.2:51242 1.1.1.1:443 715 388 0 CONNECT 1.1.1.1:443
12-02-2022 15:18:56 +0330 SOCK5.6699 00000 user105 191.184.66.98:40048 1.1.1.1:443 18105 29029 0 CONNECT 1.1.1.1:443
12-02-2022 15:18:56 +0330 SOCK5.6699 00000 user105 191.184.66.98:40070 1.1.1.1:443 674 26805 0 CONNECT 1.1.1.1:443
12-02-2022 15:20:24 +0330 SOCK5.6699 00000 user143 112.199.63.119:60682 1.1.1.1:443 475 445 0 CONNECT 1.1.1.1:443
12-02-2022 15:20:37 +0330 SOCK5.6699 00000 user105 191.184.66.98:40102 1.1.1.1:443 12913 18780 0 CONNECT 1.1.1.1:443
12-02-2022 15:20:42 +0330 SOCK5.6699 00000 user143 112.199.63.119:60688 1.1.1.1:443 4530 34717 0 CONNECT 1.1.1.1:443
12-02-2022 15:20:44 +0330 SOCK5.6699 00000 user127 212.167.145.49:2972 1.1.1.1:443 827 267 0 CONNECT 1.1.1.1:443
我的目标是提取此日志文件的两个部分:
- 用户名
- 用户源IP地址
以下是所需数据部分的示例。
2022 年 2 月 2 日 15:18:22 +0330 SOCK5.6699 00000用户 144 97.251.107.125 :38605 1.1.1.1:443 51766 169369 0 连接 1.1.1.1:443
所以我编写了一个 Python 脚本来提取这两个项目并将它们存储在单独的列表中,然后使用 zip 函数将它们连接起来。
import pprint
import collections
iplist=[]
for l in data:
ip_port=l[53:71]
iplist.append(ip_port.split(':')[0])
userlist=[]
for u in data:
user=u[42:52]
userlist.append(user.replace(" ", ""))
a=list(zip(iplist,userlist))
most_ip=collections.Counter(a).most_common(5)
pprint.pprint(most_ip)
这段代码工作正常,我可以使用相应的用户名获取最常用的 ip。还需要提到我没有使用re模块,因为它列出了第二个 IP(目标 IP 是 1.1.1.1-我不关心它)
问题: 除了我编写代码的方式之外,还有其他方式(更简洁)吗?
在“shearn89”的建议下,我编辑了我的代码如下:
一次迭代就简单多了。
还有许多功能可以优化您的新代码。最吸引我的两件事:
不要对日志的每一行多次执行split(),只执行一次split()并将结果存储在一个变量中,因为这个函数的每次执行都需要一些时间(即使它不多,但会加起来)您处理的更多数据)。
为什么要创建两个列表然后将它们压缩在一起?只需将元组直接存储在列表中: