根据nftables wiki(也可以在此处查看此答案),数据包碎片整理发生在优先级 -400。但是,当我使用优先级 -300 的 nftables 链时:
flush ruleset;
table ip test {
chain prerouting {
type filter hook prerouting priority -300; policy accept;
ip frag-off & 0x1fff != 0 log;
}
}
我清楚地看到内核日志中的碎片数据包:
[ 2526.162244] IN=ens7 OUT= MAC=0c:5c:00:2d:b4:03:0c:80:9a:6a:23:01:08:00 SRC=201.201.201.1 DST=200.200.200.2 LEN=1500 TOS=0x00 PREC=0x00 TTL=63 ID=33977 MF FRAG:185 PROTO=UDP
[ 2526.162752] IN=ens7 OUT= MAC=0c:5c:00:2d:b4:03:0c:80:9a:6a:23:01:08:00 SRC=201.201.201.1 DST=200.200.200.2 LEN=961 TOS=0x00 PREC=0x00 TTL=63 ID=33977 FRAG:370 PROTO=UDP
上面的代码只是一个最小的可重现示例;在我们的实际代码中,这会导致诸如只有初始 UDP 片段经过(原始)NAT 等问题。
内核模块nf_conntrack
与nf_defrag_ipv4
. 我究竟做错了什么?
编辑:
我发现只要添加一个依赖于 conntrack 的规则,这种行为就会消失。规则可以是任何东西,例如
nft add rule table test prerouting ct state new,invalid,established,related counter accept
就好像拉入 conntrack 告诉 Linux “我想要一些 conntrack 功能”。所以我的后续问题是,有没有一种方法可以启用 conntrack 而无需添加这个额外的(虚拟)规则?
正如您所注意到的,除非特别需要,否则网络堆栈不会对数据包进行碎片整理。这是为了优化转发性能。
当 Linux 只需要转发数据包时,它会处理 L3 (IP) 信息以做出转发决定。它不需要查看 L4 (TCP) 信息。分段的 IP 数据包包含所需的信息,因此无需进行碎片整理。
但是,在执行 NAT / 跟踪连接时,需要对数据包进行碎片整理才能访问 L4(TCP / UDP)信息。
下有几个更改Linux网络堆栈操作的选项
/proc/sys/net/ipv4
,并且有ipfrag
相关的设置。但是,我没有立即看到那里的“强制碎片整理”设置。因此,强制连接跟踪可能是强制 IP 碎片整理的唯一方法。