我运行 SaaS 监控服务。我们的标准集成示例是向我们提供的特殊 URL 发出 curl 请求。我们遇到了一个间歇性问题,用户遇到了 10 秒的 curl 超时(-m 10 参数)。但是,我可以在我的服务器日志中看到,当时处理的请求只需要 100-300 毫秒,这对我们来说是正常的。
我们确实会在每分钟的顶部看到流量高峰,但即便如此,我们也很少需要超过 1000 毫秒的时间。
我们有一个特别容易受到超时影响的用户。我已经要求他在他的 hosts 文件中设置我们的 IP,以确保这不是 DNS 问题。(虽然我非常有信心这不是 DNS)。
我喜欢任何关于微创方式的想法,我可以请这个用户帮助我进行故障排除。在我们转储之前,亚马逊 ELB 超时更为常见(尽管仍然非常罕见),我能够重现它几次,我看到了非常奇怪的“在 0 毫秒时超时”错误,好像连接在 10 秒后立即以某种方式被拒绝了暂停。
在我们的 iptables 配置中没有什么奇异的东西,只是阻塞了端口和错误的 ips。网络服务器堆栈是 nginx-uwsgi