我们的应用程序在高负载时变得无响应,等待时间更长。进程使用率异常低(每个进程约 15% 的 CPU 使用率,我们的应用程序在 8 个进程上运行)。
Nginx 错误日志输出显示了其中的一些:
2014/12/04 03:39:31 [crit] 24383#0: *2008067 connect() to 127.0.0.1:4567 failed (99: Cannot assign requested address) while connecting to upstream, client: 108.162.246.229, server: example.org, request: "GET /socket.io/?EIO=3&transport=polling&t=1417682366937-11501 HTTP/1.1", upstream: "http://127.0.0.1:4567/socket.io/?EIO=3&transport=polling&t=1417682366937-11501", host: "example.org", referrer: "https://example.org/unread"
我所看到的
- 输出
ss -tan | grep TIME-WAIT | wc -l
在 30,000 左右,哎哟! - 该应用程序将响应,然后:
- 所有进程都会突然下降到接近 0 的 CPU 使用率
- 应用程序将变得无响应
- 约 30 秒后,应用程序将备份,无限重复
需要启动应用程序,所以创可贴解决方案:
echo 28000 65535 > ip_local_port_range
(MongoDB 在 27101 上运行,所以我选择了一个高于此的下限)echo 1 > /proc/sys/net/ipv4/tcp_tw_reuse
echo 1 > /proc/sys/net/ipv4/tcp_tw_recycle
这将TIME-WAIT
状态中的套接字数量减少到更易于管理的约 400 个。
这是一个片段ss -tan | grep TIME-WAIT
:
State Recv-Q Send-Q Local Address:Port Peer Address:Port
TIME-WAIT 0 0 127.0.0.1:29993 127.0.0.1:4567
TIME-WAIT 0 0 127.0.0.1:28522 127.0.0.1:4567
TIME-WAIT 0 0 127.0.0.1:29055 127.0.0.1:4567
TIME-WAIT 0 0 127.0.0.1:31849 127.0.0.1:4567
TIME-WAIT 0 0 127.0.0.1:32744 127.0.0.1:4567
TIME-WAIT 0 0 127.0.0.1:28304 127.0.0.1:4567
TIME-WAIT 0 0 127.0.0.1:34858 127.0.0.1:4567
TIME-WAIT 0 0 127.0.0.1:36707 127.0.0.1:4567
TIME-WAIT 0 0 127.0.0.1:34756 127.0.0.1:4567
TIME-WAIT 0 0 104.131.91.122:443 108.162.250.6:55549
TIME-WAIT 0 0 127.0.0.1:32629 127.0.0.1:4567
TIME-WAIT 0 0 127.0.0.1:34544 127.0.0.1:4567
TIME-WAIT 0 0 127.0.0.1:34732 127.0.0.1:4567
TIME-WAIT 0 0 127.0.0.1:33820 127.0.0.1:4567
TIME-WAIT 0 0 127.0.0.1:33609 127.0.0.1:4567
TIME-WAIT 0 0 127.0.0.1:34504 127.0.0.1:4567
TIME-WAIT 0 0 127.0.0.1:32463 127.0.0.1:4567
TIME-WAIT 0 0 127.0.0.1:35089 127.0.0.1:4567
TIME-WAIT 0 0 127.0.0.1:30003 127.0.0.1:4567
TIME-WAIT 0 0 104.131.91.122:443 199.27.128.100:36383
TIME-WAIT 0 0 127.0.0.1:33040 127.0.0.1:4567
TIME-WAIT 0 0 127.0.0.1:34038 127.0.0.1:4567
TIME-WAIT 0 0 127.0.0.1:28096 127.0.0.1:4567
TIME-WAIT 0 0 127.0.0.1:29541 127.0.0.1:4567
TIME-WAIT 0 0 127.0.0.1:30022 127.0.0.1:4567
TIME-WAIT 0 0 127.0.0.1:31375 127.0.0.1:4567
TIME-WAIT 0 0 127.0.0.1:29827 127.0.0.1:4567
TIME-WAIT 0 0 127.0.0.1:29334 127.0.0.1:4567
我的问题:
- 其中很多是从 127.0.0.1 到 127.0.0.1,这正常吗?对等地址不应该都来自外部IP吗?
- 我们的 Node.js 应用程序在 nginx 代理后面,在 CloudFlare DNS 后面,这限制了唯一入站 IP 地址的数量,这可能有关系吗?
- 如何正确减少状态中的套接字数量
TIME-WAIT
? - 我很肯定我们每秒没有 3000 个唯一的套接字连接,我们是否配置错误并在应该打开一个时打开了数百个套接字?
提前感谢您提供的任何帮助!
最后,我做了更多的研究并阅读了这篇非常优秀的关于在 nginx 代理后面扩展 Node 应用程序的指南。
当我将
keepalive
参数添加到upstream
nginx 中的块时,主要区别就出现了。事实证明,nginx 工作人员不会缓存传入的连接并重新使用它们,从而导致创建数千个新连接(尤其是使用 socket.io 握手等)@MichaelHampton 关于使用 unix 域套接字的建议也可以很好地解决这个问题。