我正在尝试确定在 Windows Server 2016 上的 Hyper-V 下运行的 Linux (Debian) VM 的问题。
问题是,在随机的时间间隔内,我看到大量的带宽峰值使物理服务器网络端口最大化,从而导致与物理服务器的连接丢失。
我已经尝试在 Hyper-V 服务器的“带宽管理”部分中限制虚拟机的带宽,但它没有任何效果。
我也尝试过使用 Wondershaper ( https://github.com/magnific0/wondershaper ),虽然它似乎限制了“一些”流量,但我仍然看到巨大的峰值,所以它无法拾取导致这种情况的任何原因.
我也尝试过使用 ethtool 来更改接口速度,但问题仍然存在。
在这个阶段,我不知道是什么原因造成的,以及如何预防。
任何人都可以提出其他建议,我可以尝试找出可能导致这种情况的原因吗?
谢谢。
更新:我在 VM 上安装了 netatop 并发现了正在发生的问题(如下),但同样,它没有显示正在发生的事情以及正在消耗带宽的位置(除非我遗漏了一些东西)。您可以看到问题,但是如何超过我设置的 300Mbps 的网络接口速度?它正在录制965Mbps,这怎么可能?
更新 :
这是问题发生时在 tcpdump 捕获中看到的流量,因此绝对是恶意攻击,有数千个这样的条目,来自许多不同的 IP 地址,但都针对同一个 website.com 域并且都具有几乎相同的有效负载.
0.000013 31.xxx.xxx.xxx 185.xxx.xxx.xxx DNS 1034 Standard query response 0x9764 ANY website.com RRSIG RRSIG RRSIG NSEC3PARAM website.com DNSKEY DNSKEY DNSKEY RRSIG RRSIG RRSIG RRSIG AAAA 2600:1f18:46d5:xxxx:xxxx:xxxx:91c8:a5b DNSKEY RRSIG RRSIG RRSIG RRSIG RRSIG SOA ns0.website.com TXT TXT TXT TXT TXT TXT TXT
我是否正确假设蓝线代表入站流量(从外部下载到 VM)而紫线代表出站(从 VM 上传到外部)?如果是这样,则支持 Hyper-V 带宽管理的 Windows 服务质量 (QoS) 功能将无法减少入站峰值:
另请参阅此TechNet 讨论,它加强了与 Hyper-V 的相关性:
尝试识别正在消耗带宽的特定应用程序或服务。一种方法是使用Debian 存储库中提供的atop。但是,您需要手动安装netatop内核模块,该模块启用每个进程的网络记帐,但未包含在 Debian 软件包中。完整的说明在网站上,并在此处进行了总结:
构建并安装模块和守护进程。从提取的存档的顶级目录并运行以下命令:
加载模块并启动守护进程:
加载模块并在启动后自动启动守护进程:
在虚拟机上运行
sudo atop -n
并等待网络峰值。您可能能够通过其较高的 BANDWI 和 NET 值来发现有问题的服务,例如本例中的 sshd:顺便说一句,我假设您的网络图专门测量虚拟机的网络适配器。如果不是——例如,如果它正在测量 Hyper-V 服务器上的物理适配器——那么它实际上可能是导致峰值的 Windows 进程。解决这个问题的方法是类似的,您首先要找到一个适用于 Windows 的顶级类似物。
更新:
您的屏幕截图表明,在此时间段内第 3 层 IP 数据包的数量 ( ipi = 866802) 大大超过了 ICMP 数据包 ( icmpi = 199) 加上第 4 层 TCP/UDP 数据包 ( tcpi =4316, udpi =47) 的总和。这一点,再加上没有任何正在运行的进程参与,表明虚拟机正被外部来源的格式错误(恶意?)流量淹没。
您需要应用davidgo 的建议来使用 tcpdump。您可以使用它的一种方法是运行 bash 循环以等待每秒传入的数据包超过阈值:
出现问题后,您可以将生成的out.pcap文件复制到另一台计算机,然后使用 Wireshark 打开它。从那里,应用Statistics -> Endpoints以查看多余流量的来源。如果您本地网络中的设备(甚至可能是 Hyper-V 服务器)正在生成流量,那么您可以重新配置它以停止。如果 Internet 上的单个 IP 正在生成流量,那么您可以找到一种使用防火墙将其列入黑名单的方法。如果它有很多 IP,那么您可能需要阅读有关分布式拒绝服务攻击 (DDoS) 以及如何使用防火墙和/或 ISP 来阻止流量的信息。许多 DDoS 文章都可以在线获得,例如来自 Amazon 的这篇文章。