我的挑战
我需要对大量数据进行 tcpdumping——实际上来自 2 个处于混杂模式的接口,这些接口能够看到大量流量。
把它们加起来
- 从 2 个接口以混杂模式记录所有流量
- 这些接口没有分配 IP 地址
- pcap 文件必须每 ~1G 旋转一次
- 当存储了 10 TB 的文件时,开始截断最旧的文件
我目前在做什么
现在我像这样使用 tcpdump:
ifconfig ethX promisc
ifconfig ethX promisc
tcpdump -n -C 1000 -z /data/compress.sh -i any -w /data/livedump/capture.pcap $FILTER
包含 src/dst 过滤器,$FILTER
以便我可以使用-i any
. 这样做的原因是,我有两个接口,我想在一个线程而不是两个线程中运行转储。
compress.sh
负责将 tar 分配给另一个 CPU 核心,压缩数据,为其提供合理的文件名并将其移动到存档位置。
我不能指定两个接口,因此我选择使用过滤器并从any
接口转储。
现在,我不做任何内务管理,但我计划监控磁盘,当我还剩 100G 时,我将开始擦除最旧的文件——这应该没问题。
现在; 我的问题
我看到丢弃的数据包。这是来自已经运行了几个小时并收集了大约 250 g pcap 文件的转储:
430083369 packets captured
430115470 packets received by filter
32057 packets dropped by kernel <-- This is my concern
如何避免丢弃这么多数据包?
这些我已经尝试过或看过的东西
/proc/sys/net/core/rmem_max
更改的值/proc/sys/net/core/rmem_default
确实有帮助——实际上它只处理了大约一半的丢弃数据包。
我也看过gulp - gulp 的问题是,它不支持一个进程中的多个接口,如果接口没有 IP 地址,它就会生气。不幸的是,这对我来说是一个交易破坏者。
下一个问题是,当流量流过管道时,我无法进行自动轮换。获取一个 10 TB 的巨大文件不是很有效,而且我没有一台可以运行 wireshark 的 10 TB+ RAM 的机器,所以这已经结束了。
你有什么建议吗?甚至可能是一种更好的方式来完成我的流量转储。
tcpdump 将传入数据存储在环形缓冲区中。如果缓冲区在 tcpdump 处理其内容之前溢出,那么您将丢失数据包。
默认的环形缓冲区大小可能是 2048 (2MiB)。
要增加缓冲区大小,请添加以下
-B
选项:您还应该尝试使用更快的磁盘存储。
我最终找到了一个可以接受的解决方案。丢弃的包已从 .0047% 减少到 .00013% - 起初看起来并不多,但当我们谈论数百万个数据包时,它是相当多的。
解决方案包括几件事。一种是按照 Michael Hampton 的建议更改环形缓冲区大小。
此外,我创建了一个 ramfs 并对其进行了实时转储,重写了我的压缩脚本以负责将转储从 ramfs 移动到磁盘。这只减少了很少的数量,但足以引起注意——尽管磁盘的所有测试和基准测试都表明磁盘不应该成为瓶颈。我想访问时间在这里非常重要。
禁用超线程的作用也超出您的想象。