目前我们的服务器存在一些问题,间歇性地,我们似乎得到了只是运行和运行的 apache 进程,占用了 100% 的 CPU。
运行 top 时,我们看到以下内容:
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
20788 www-data 20 0 318m 18m 3984 R 100 0.0 40:29.21 /usr/sbin/apache2 -k start
23523 www-data 20 0 319m 20m 4684 R 100 0.0 4:12.36 /usr/sbin/apache2 -k start
我想尝试找出导致此问题的脚本(或任何脚本),所以我尝试了:
strace -p 20788
但这根本没有显示任何输出(我已经将其放置了大约 10 分钟,但它什么也没显示)。根据我的理解,这可能意味着它陷入了无限循环,并且没有任何“系统调用”可以显示。
我还能做些什么来说明发生了什么吗?
谢谢
编辑 -忘了说,这是一个随时有几百个用户的实时服务器!所以我真的不能随意尝试更改配置选项并重新启动 apache。
编辑 2 - 当 PHP 未配置 --enable-debug 时,来自 gdb 的回溯 (bt) 似乎没有那么有用 - 它只显示“execute()”,但我需要知道 PHP 脚本是什么实际上正在运行..还有其他方法吗?
#0 0x00007f6c143fb0c5 in ?? () from /usr/lib/apache2/modules/libphp5.so
#1 0x00007f6c143b040b in execute () from /usr/lib/apache2/modules/libphp5.so
#2 0x00007f6c1438b970 in zend_execute_scripts () from /usr/lib/apache2/modules/libphp5.so
#3 0x00007f6c14337fe3 in php_execute_script () from /usr/lib/apache2/modules/libphp5.so
#4 0x00007f6c1441ae7d in ?? () from /usr/lib/apache2/modules/libphp5.so
#5 0x00007f6c18912508 in ap_run_handler ()
#6 0x00007f6c1891297e in ap_invoke_handler ()
#7 0x00007f6c18922570 in ap_process_request ()
#8 0x00007f6c1891f398 in ?? ()
#9 0x00007f6c18918fa8 in ap_run_process_connection ()
#10 0x00007f6c189271d0 in ?? ()
#11 0x00007f6c1892793a in ?? ()
#12 0x00007f6c189284e7 in ap_mpm_run ()
#13 0x00007f6c188fd4a4 in main ()
好吧,如果你感到勇敢:
gdb -p 20788
然后发布
bt
以查看堆栈框架,例如顺便说一句,还有
ltrace
一点值得一提——也试试看。更新。:好吧,既然现在我们知道 Apache 确实在运行某些东西,为什么不查看
mod_status
输出 —扩展输出?一个非常简单的方法是使用
htop
. 您可以对高 CPU 进程进行排序,然后使用strace
一个过程lsof
查看进程的打开文件ltrace
。我发现至少其中一个选项可以找到生成负载的脚本,您当然可以在生产 Web 服务器上使用它进行调试。
你可以试试:
如果您发出触发该 PID 的 HTTP 请求,则您的命令应该有效。
也许您想暂时重新配置只有一个子进程的 Apache?
那个 apache 实例的 PID 很低,它可能是所有实例的父亲。这肯定可以解释高 CPU 使用率(它一直存在,其他的根据负载产生和召回)。累积的 CPU 时间多可能只是意味着它已经运行了很长时间。just没有输出
strace(1)
意味着它没有进行系统调用。是的,它可能处于一个紧密的循环中,但 Apache 本质上是网络上的 I/O,所以我认为它没有做任何有用的事情。无论如何,奇怪的是一个 CPU 的 100%。尝试这个:
1) 使用日期/时间、PHP 脚本和 PID 启动日志
getmypid()
2)然后看你的服务器
top
3) 当您看到 apache 进程变高时,在您的日志中搜索相同的日期/时间和 PID。您应该能够找到有问题的脚本。