客户端和服务器节点为CentOS7.9/X86_64。如果HTTP POST请求直接发送到服务器,大约有0.2%的情况可能会超时。如果HTTP POST请求是通过客户端节点上的NGINX代理发送的,大约有20%的情况会超时。我已经确认只有一个后端节点有这个问题。即使吞吐量较高,所有其他节点也 100% 成功。
在后端节点上进行 tcpdump 并使用 Wireshark 进行分析后。请求成功,正常接收tcp包。如下:
也就是说,TCP 接收方向每个大的 tcp 有效负载发送 ACK。
对于失败的请求,tcp 接收器仅确认每个 tcp 数据包的 1398 大小。1398 是 MSS 减去 TCP/IP 标头后的最小 tcp 有效负载。(1410 - 66 = 1398),如下:
TCP 发送方在 60 秒内发送 TCP 重传 8 次,但 TCP 接收方再也没有发回 ack。HTTP 服务器在读取超时 60 秒后关闭了连接。
看起来数据包是在内核 TCP 堆栈中丢失的,而不是在网络方式中丢失的,因为数据包是在服务器端节点上捕获的。在客户端节点上,通过 tcpdump 观察到客户端很快收到了来自服务器的每个 ack。
有人能帮忙吗?提前致谢。