我目前在下面有一个 Nginx 配置。它在大多数情况下都能正常工作。出于某种原因,有一定比例的请求需要很长时间,它们不会下降。也许最多说几分钟。
然后他们通过,以每秒 5-10kbs 的速度发送文件,而正常请求可能会超过每秒几兆,并在几秒钟内开始。
任何有关调试的帮助将不胜感激。
user sysadminguy;
worker_processes auto;
pid /run/nginx.pid;
worker_rlimit_nofile 25000;
events {
worker_connections 1080;
# multi_accept on;
}
http {
##
# Basic Settings
##
access_log off;
sendfile on;
tcp_nopush on;
tcp_nodelay on;
keepalive_timeout 65;
types_hash_max_size 2048;
# server_tokens off;
# server_names_hash_bucket_size 64;
# server_name_in_redirect off;
include /etc/nginx/mime.types;
default_type application/octet-stream;
##
# Logging Settings
##
access_log /var/log/nginx/access.log;
error_log /var/log/nginx/error.log;
#limit_req_zone $binary_remote_addr zone=mylimit:100m rate=10r/m;
##
# Gzip Settings
##
gzip on;
gzip_disable "msie6";
##
# Virtual Host Configs
##
upstream backend {
least_conn;
server 1.1.1.2:3292 fail_timeout=10s weight=1;
server 1.1.1.3:3292 fail_timeout=10s weight=1;
server 1.1.1.4:3292 fail_timeout=10s weight=1;
server 1.1.1.5:3292 fail_timeout=10s weight=1;
server 1.1.1.6:3292 fail_timeout=10s weight=2;
server 1.1.1.7:3292 fail_timeout=10s weight=2;
}
server {
listen 80;
server_name server1.example.com;
location / {
return 301 https://$server_name$request_uri;
}
}
server {
listen 443 ssl http2 default_server;
server_name server1.example.com;
ssl on;
ssl_certificate /etc/letsencrypt/live/server1.com-0001/fullchain.pem; # managed by Certbot
ssl_certificate_key /etc/letsencrypt/live/server1.com-0001/privkey.pem; # managed by Certbot
location = / {
return 301 https://example.com;
}
location / {
#limit_req zone=mylimit burst=20;
proxy_set_header Host $host;
proxy_set_header X-Real-IP $remote_addr;
proxy_read_timeout 3600;
proxy_request_buffering off;
proxy_buffering off;
proxy_pass http://backend;
}
location /nginx_status {
# Turn on stats
stub_status on;
access_log off;
# only allow access from 192.168.1.5 #
#allow 192.168.1.5;
#deny all;
}
}
include /etc/nginx/conf.d/*.conf;
include /etc/nginx/sites-enabled/*;
}
尝试通过将其设置为来禁用该
keepalive_timeout
值0
。在您的配置中让我印象深刻的是这一行:
根据官方 Nginx 文档,默认值为
keepalive_timeout
65 秒。但根据我的经验,任何 Web 服务器(Nginx、Apache 甚至 IIS)的保持活动设置应该在 2 到 3 秒左右。知道我会将该值设置
0
为有效地禁用 Nginx 中的保持活动状态,如下所示:然后重新启动 Nginx 看看是否可以解决问题。
理解保持活动设置的最好方法是保持活动仅在服务器上具有价值,其中一个到 Nginx 的连接将一次向客户端浏览器提供大量相关资产。
所以想象一下像照片库页面这样的东西,里面装满了几十张图片。设置高保活设置可能有助于通过一个 Nginx 连接一次干净有效地交付所有这些图像。
这就是理论。在实践中,最好禁用保持活动设置,或者简单地将其设置为足够低的值以实用。知道您可能想尝试将该值设置为 2 秒,如下所示:
重启 Nginx 看看效果如何。老实说,应该将该值设置为
0
.也就是说,配置的值可能也与问题有关。
fail_timeout
upstream
但是更深入地查看您的配置,我看到了这些设置:
根据我自己的经验,该
fail_timeout
设置不应该10s
而是0
这样的配置是:重新启动 Nginx,看看它是如何工作的。根据您的描述,似乎该后端池中的每个节点都会等待 10 秒,然后才会失败。因此,例如,如果存在一些整体网络连接问题,则该池中的节点可能要到 60 秒后才能访问(每个节点延迟 6 次 10 秒)。
如果由于某种原因最终给您带来 503(服务不可用)错误,那么可能为
fail_timeout
has value 设置一个实际值。也许将其设置为 3 秒,看看它是如何工作的?总的来说,我认为
keepalive_timeout
设置是这里的核心问题。这fail_timeout
可能是一个因素,但我对更深层次的设置知之甚少,无法对此进行调用。