客户端和服务器节点为CentOS7.9/X86_64。如果HTTP POST请求直接发送到服务器,大约有0.2%的情况可能会超时。如果HTTP POST请求是通过客户端节点上的NGINX代理发送的,大约有20%的情况会超时。我已经确认只有一个后端节点有这个问题。即使吞吐量较高,所有其他节点也 100% 成功。
在后端节点上进行 tcpdump 并使用 Wireshark 进行分析后。请求成功,正常接收tcp包。如下:
也就是说,TCP 接收方向每个大的 tcp 有效负载发送 ACK。
对于失败的请求,tcp 接收器仅确认每个 tcp 数据包的 1398 大小。1398 是 MSS 减去 TCP/IP 标头后的最小 tcp 有效负载。(1410 - 66 = 1398),如下:
TCP 发送方在 60 秒内发送 TCP 重传 8 次,但 TCP 接收方再也没有发回 ack。HTTP 服务器在读取超时 60 秒后关闭了连接。
看起来数据包是在内核 TCP 堆栈中丢失的,而不是在网络方式中丢失的,因为数据包是在服务器端节点上捕获的。在客户端节点上,通过 tcpdump 观察到客户端很快收到了来自服务器的每个 ack。
有人能帮忙吗?提前致谢。
这是根本原因:
客户端(nginx)不发送 PSH 标志。
服务器端扩大TCP窗口大小以接收更多字节并且不发回ACK。
客户端发送更多字节。
服务器接收更多字节并扩大窗口大小。但没有发送ACK标志。
100ms后,客户端认为数据包丢失并重新发送数据包。
服务器发送“重复ACK”并继续扩大窗口大小,因为尽管字节重复,但它收到了更多字节。
服务器发送“重复ACK”并继续扩大窗口大小,因为尽管字节重复,但它收到了更多字节。两者都饿死了。
解决方案:
即使打开配置,nginx 也不会发送 PSH。
在服务器端配置将最大 tcp 窗口大小减少到 32k 解决了问题。