最近我们的 Apache Web 服务器每天多次给我们这个错误:
[Tue Apr 06 01:07:10 2010] [error] Server ran out of threads to serve requests. Consider raising the ThreadsPerChild setting
我们将 ThreadsPerChild 设置从 50 提高到 100,但仍然出现错误。我们的访问日志表明,这些错误甚至不会在高负载期间发生。例如,这里是我们访问日志的摘录(IP 地址和一些 url 为保护隐私而被编辑)。如您所见,上述错误发生在 1:07,并且在导致错误的几分钟内仅发生了一小部分请求:
99.88.77.66 - - [06/Apr/2010:00:59:33 -0400] "GET /WebRepository/jquery/jquery-ui-1.7.1.custom/css/smoothness/images/ui-icons_222222_256x240.png HTTP/1.1" 304 -
99.88.77.66 - - [06/Apr/2010:00:59:34 -0400] "GET /WebRepository/jquery/jquery-ui-1.7.1.custom/css/smoothness/images/ui-bg_glass_75_dadada_1x400.png HTTP/1.1" 200 111
99.88.77.66 - - [06/Apr/2010:00:59:34 -0400] "GET /WebRepository/jquery/jquery-ui-1.7.1.custom/css/smoothness/images/ui-bg_glass_75_dadada_1x400.png HTTP/1.1" 200 111
99.88.77.66 - mpeu [06/Apr/2010:00:59:40 -0400] "GET /some/dynamic/content HTTP/1.1" 200 145049
55.44.33.22 - mpeu [06/Apr/2010:01:06:56 -0400] "GET /other/dynamic/content HTTP/1.1" 200 12311
55.44.33.22 - - [06/Apr/2010:01:06:56 -0400] "GET /WebRepository/jquery/jquery-ui-1.7.1.custom/css/smoothness/jquery-ui-1.7.1.custom.css HTTP/1.1" 304 -
55.44.33.22 - - [06/Apr/2010:01:06:56 -0400] "GET /WebRepository/jquery/jquery-ui-1.7.1.custom/js/jquery-1.3.2.min.js HTTP/1.1" 304 -
55.44.33.22 - - [06/Apr/2010:01:06:56 -0400] "GET /WebRepository/jquery/jquery-ui-1.7.1.custom/js/jquery-ui-1.7.1.custom.min.js HTTP/1.1" 304 -
55.44.33.22 - - [06/Apr/2010:01:06:56 -0400] "GET /WebRepository/jquery.tablesorter.min.js HTTP/1.1" 304 -
55.44.33.22 - - [06/Apr/2010:01:06:56 -0400] "GET /WebRepository/date.js HTTP/1.1" 304 -
55.44.33.22 - - [06/Apr/2010:01:06:56 -0400] "GET /WebRepository/pdfs/image1.gif HTTP/1.1" 304 -
55.44.33.22 - - [06/Apr/2010:01:06:56 -0400] "GET /WebRepository/pdfs/image2.png HTTP/1.1" 304 -
55.44.33.22 - - [06/Apr/2010:01:06:56 -0400] "GET /WebRepository/pdfs/image3.png HTTP/1.1" 304 -
55.44.33.22 - - [06/Apr/2010:01:06:56 -0400] "GET /WebRepository/pdfs/image4.png HTTP/1.1" 304 -
55.44.33.22 - - [06/Apr/2010:01:06:56 -0400] "GET /WebRepository/pdfs/image5.png HTTP/1.1" 304 -
55.44.33.22 - - [06/Apr/2010:01:06:56 -0400] "GET /WebRepository/pdfs/image6.png HTTP/1.1" 304 -
55.44.33.22 - - [06/Apr/2010:01:06:56 -0400] "GET /WebRepository/pdfs/image7.png HTTP/1.1" 304 -
55.44.33.22 - - [06/Apr/2010:01:06:57 -0400] "GET /WebRepository/pdfs/image8.png HTTP/1.1" 304 -
55.44.33.22 - - [06/Apr/2010:01:06:57 -0400] "GET /WebRepository/pdfs/image9.png HTTP/1.1" 304 -
55.44.33.22 - - [06/Apr/2010:01:06:57 -0400] "GET /WebRepository/pdfs/imageA.png HTTP/1.1" 304 -
55.44.33.22 - - [06/Apr/2010:01:06:57 -0400] "GET /WebRepository/jquery/jquery-ui-1.7.1.custom/css/smoothness/images/ui-bg_flat_75_ffffff_40x100.png HTTP/1.1" 304 -
55.44.33.22 - - [06/Apr/2010:01:06:59 -0400] "GET /WebRepository/jquery/jquery-ui-1.7.1.custom/css/smoothness/images/ui-bg_highlight-soft_75_cccccc_1x100.png HTTP/1.1" 304 -
55.44.33.22 - - [06/Apr/2010:01:06:59 -0400] "GET /WebRepository/jquery/jquery-ui-1.7.1.custom/css/smoothness/images/ui-bg_glass_75_e6e6e6_1x400.png HTTP/1.1" 200 110
55.44.33.22 - - [06/Apr/2010:01:06:59 -0400] "GET /WebRepository/jquery/jquery-ui-1.7.1.custom/css/smoothness/images/ui-bg_glass_75_e6e6e6_1x400.png HTTP/1.1" 200 110
11.22.33.44 - mpeu [06/Apr/2010:01:18:03 -0400] "GET /other/dynamic/content HTTP/1.1" 200 12311
11.22.33.44 - - [06/Apr/2010:01:18:03 -0400] "GET /WebRepository/jquery/jquery-ui-1.7.1.custom/js/jquery-1.3.2.min.js HTTP/1.1" 304 -
11.22.33.44 - - [06/Apr/2010:01:18:04 -0400] "GET /WebRepository/jquery/jquery-ui-1.7.1.custom/css/smoothness/jquery-ui-1.7.1.custom.css HTTP/1.1" 200 27374
11.22.33.44 - - [06/Apr/2010:01:18:04 -0400] "GET /WebRepository/jquery/jquery-ui-1.7.1.custom/js/jquery-ui-1.7.1.custom.min.js HTTP/1.1" 304 -
11.22.33.44 - - [06/Apr/2010:01:18:04 -0400] "GET /WebRepository/jquery.tablesorter.min.js HTTP/1.1" 200 12795
11.22.33.44 - - [06/Apr/2010:01:18:04 -0400] "GET /WebRepository/date.js HTTP/1.1" 200 25809
值得一提的是,我们正在运行 Oracle 10g 附带的 Apache 版本(一些 2.0 版本),并且我们正在使用mod_plsql
它来生成我们的动态内容。由于 Apache 服务器作为单独的进程运行,并且发生此错误时数据库没有记录任何问题,我怀疑 Oracle 是否是问题所在。
不幸的是,这些错误吓坏了我们的系统管理员,他们倾向于将此错误归咎于服务器出现的任何和所有问题。这是 Apache 中的一个已知错误,我根本无法通过 Google 找到任何参考吗?
编辑:应 Embreau 的要求,这里是我们正在使用的设置(请注意,特定于 Unix 的设置,例如 MinSpareServers 已被注释掉)[另一个编辑 - 除了ThreadsPerChild
这些都是安装时存在的默认值]:
ServerType standalone
Timeout 300
SendBufferSize 16384
KeepAlive On
MaxKeepAliveRequests 100
KeepAliveTimeout 15
MaxRequestsPerChild 0
ThreadsPerChild 100
#MinSpareServers 5
#MaxSpareServers 20
#MaxClients 150
进一步编辑:这是一个运行在 64 位 1.6 GHz Itanium 2 服务器上的 Windows Server 2003 系统,具有 16 GB 的 RAM。我们已经开始做一些日志记录来确定发生这些错误时服务器的负载量;我们的 Apache 日志显示几乎没有人访问该网站,但后台发生了数据收集过程,因此其中一个可能已使 Apache 减慢到足以导致一些问题或什么的程度。
您的超时值设置为 300 秒,即 5 分钟,请将其设置为更合理的值,例如 15 或 30 秒。
现在您的问题可能与 ThreadsPerChild 值有关。将其设置为至少 250。请监视负载下任务管理器中的更改,以确保它不会过度杀伤(可能不是,我在一些服务繁忙站点的旧单核 CPU 上将它设置得更高。)
如果我理解正确,它是 Windows 操作系统?如果是这样,是哪一个,在什么样的硬件上?(CPU和内存)
虽然您的配置设置有改进的余地,例如 Embreau 提到的,但它们可能不是直接原因。
可能是您的应用程序或堆栈中的某些东西导致了问题。
例如,如果您的应用程序正在等待来自数据库的响应,它最终可能会导致所有线程都在等待,从而即使在低负载下也会导致问题。这种性能通常以活跃的数据库连接搅动为例。
应用程序错误可能会表现出相同的性能,并且更难以隔离。虽然这是真的,除非有迹象表明这是原因,否则我将首先关注以下两件事。
你有
ThreadsPerChild
或SendBufferSize
配置了有什么特别的原因吗?使用ThreadsPerChild
,除非有不寻常的需要或者您已经对它的使用进行了适当的考虑,否则默认值应该没问题。如果没有正确调整,它可能会耗尽物理内存并开始交换,这会降低性能。MaxRequestsPerChild
设置0
为不明智。如果您的应用程序存在内存泄漏,则 Apache 子进程将永远不会回收。你希望他们回收利用。我猜你是开发者。您的系统管理员应该与您密切合作以解决此问题,因为这绝对是一个跨职能问题。