我们的网络中有一个奇怪的问题,根据 networkengineering.stackexchange 在那里是题外话,尽管在我看来这是一个网络问题。
当我们想将 SQL 数据库恢复到测试数据库时,我们第一次看到它。还原失败,在 windows 日志中我们看到 iSCSI 错误,挂载的 iSCSI 磁盘似乎经常失去连接(使用 veeam 还原备份 - 这会将备份文件挂载为 iSCSI 卷(目标是物理备份服务器,启动器是虚拟 SQL服务器))。
我们做了一些测试,这不仅仅是 iSCSI 问题,当我们在物理服务器和虚拟服务器之间复制文件时会发生这种情况。我们的监控显示在复制过程中出现了很高的错误,奇怪的是我们在交换机上没有看到错误。
当我们复制大文件时,我们在虚拟服务器的交换机端口(交换机是 Netgear M5300)上看到的是“接收的数据包 > 1518 个八位字节”和“发送的数据包 > 1518 个八位字节”。但是大于 1518 的“数据包 RX 和 TX”为 0。这仅发生在 ESX 的端口上,在任何测试中都不会发生在其他服务器的端口上。
所有端口(交换机、vSwitch、端口组、服务器接口)都将 MTU 设置为默认值 (1518 / 1500)。我们重新启动了备份服务器和所有包含 VM 的 esx,禁用并重新启用了交换机端口。发送服务器上的 Wireshark 显示大数据包(64kb),但根据交换机统计,此端口仅接收正常的 1518 帧。
即使我们将文件上传到 esx 数据存储,它似乎只发生在这个测试 esx 上,我们拥有的所有虚拟机。
我不知道在哪里搜索了。我们唯一还没有重启的是交换机本身,因为这是网络中的核心组件,我们不能在生产期间这样做(生产是 24/7)。我们将在周末尝试这个,但如果有人有提示在哪里看,我将不胜感激。
EDIT2:进行了更多测试:错误仅在具有多个 vlan 的上行链路端口上可见。如果我只使用一个未标记的 vlan,那么任何地方都没有错误,也没有超过 1518 的数据包。
如果我现在考虑一下,带有 VLAN 标记的数据包的大小为 1522。但有些交换机不关心这一点,有些则关心——MTU 到处都是默认值。我不想停止在 vmware 中使用标记的 VLAN……知道吗?
显然,关于“数据包 > 1518”的信息没有此链接到 Netgear 论坛。VLAN标记的 4 个字节会自动添加到 MTU 设置中,因此无需将其更改为 1522 或其他内容。
如果他们在计算大于 1518 的数据包时不计算标记数据包,那会更好......
这意味着我们的备份恢复问题有另一个来源......搜索仍在继续......