从列表中的某些分隔字段中删除文本

Question

ThatGraemeGuy

Asked: 2010-01-30 01:30:04 +0800 CST2010-01-30 01:30:04 +0800 CST 2010-01-30 01:30:04 +0800 CST

从一行文本中的 2 个或多个中提取 1 个 IP 地址

772

我有大约 30,000 个 Apache 访问日志，其中一些列出了多个客户端 IP 地址。这是因为 Apache 记录了 X-Forwarded-For 标头而不是客户端的 IP 地址。这样做的原因是因为我们最近在 Web 服务器前添加了 haproxy。

展望未来，我们将使用Apache 的rpaf仅记录 1 个 IP 地址，即与 haproxy 的传入连接，因此这不会是一个持续存在的问题。

这让我想到了一个实际的问题：

如何处理具有多个 IP 地址的现有日志，以仅提取我想要的一个。我假设我需要 sed 或类似的东西，但我更像是一个 Windows 人，所以不能 100% 确定。

规则是：

如果只有 1 个 IP，则不修改该行。
如果有2个或更多IP，我只想保留倒数第二个IP。它们以逗号分隔。

示例 1，1 个 IP

输入：10.1.1.1 - - [29/Jan/2010:11:00:00] ....（日志行的其余部分）

输出：10.1.1.1 - - [29/Jan/2010:11:00:00] ....（日志行的其余部分）

示例 2，2 个 IP

输入：10.1.1.1 , 10.2.2.2 - - [29/Jan/2010:11:00:00] ....（日志行的其余部分）

输出：10.1.1.1 - - [29/Jan/2010:11:00:00] ....（日志行的其余部分）

示例 3，3 个 IP

输入： 10.1.1.1, 10.2.2.2 , 10.3.3.3 - - [29/Jan/2010:11:00:00] ....（日志行的其余部分）

输出：10.2.2.2 - - [29/Jan/2010:11:00:00] ....（日志行的其余部分）

2 个回答

Voted

Jonathan Clarke · Answer 1 · 2010-01-30T02:18:00+08:00

Best Answer

Jonathan Clarke

2010-01-30T02:18:00+08:002010-01-30T02:18:00+08:00

这可以通过在您的日志上运行此 sed 命令来实现：

sed -i "s/^\([0-9]\+\.[0-9]\+\.[0-9]\+\.[0-9]\+, \)*\([0-9]\+\.[0-9]\+\.[0-9]\+\.[0-9]\+\), [0-9]\+\.[0-9]\+\.[0-9]\+\.[0-9]\+ - -/\2 - -/"

一些解释：

一般格式是s/MATCH PATTERN/REPLACE PATTERN/
匹配是在字符串“some IP”（0到多次）后跟“some IP”（这是我们要保留的）和最后“some IP - -”（最后一个要丢弃的IP）上完成的
无需匹配行的第一种格式（只有一个 IP），因为它不需要更改。
最后一部分包含\2在括号中引用匹配的第二部分。
在 shell 中运行时，许多字符必须转义（使用反斜杠：），例如括号：(和)，加：（+表示“至少一次”）和文字字符句点：（.否则它被视为通配符）
sed的-i选项意味着更改文件。确保您在副本上工作！

7

Kyle Brandt · Answer 2 · 2010-01-30T05:52:13+08:00

Kyle Brandt

2010-01-30T05:52:13+08:002010-01-30T05:52:13+08:00

“它让我的眼睛几乎和 Perl 一样多，但它确实有效。”

use strict;
use warnings;
use Regexp::Common qw /net/;

my $ip;
my $restOfLine;
my @ips;    

while (<>) {
    if (/- -.*/) {
        $restOfLine = $&;
    }
    unless (@ips = /($RE{net}{IPv4})/g) {
        print;
        next;
    }
    if ($ips[1]) {
        $ip = splice(@ips,-2,1);
    } else {
        $ip = $ips[0];
    }
    print "$ip " . $restOfLine . "\n";
}

让我的眼睛少流血，但也许这只是我:-)

0

从一行文本中的 2 个或多个中提取 1 个 IP 地址

新安装后 postgres 的默认超级用户用户名/密码是什么？

SFTP 使用什么端口？

从 IP 地址解析主机名

如何按大小对 du -h 输出进行排序

命令行列出 Windows Active Directory 组中的用户？

什么是 Pem 文件，它与其他 OpenSSL 生成的密钥文件格式有何不同？

如何确定bash变量是否为空？

从一行文本中的 2 个或多个中提取 1 个 IP 地址

2 个回答

相关问题