check process apache with pidfile /var/run/httpd.pid
start program = "/etc/init.d/httpd start"
stop program = "/etc/init.d/httpd stop"
if cpu > 40% for 2 cycles then alert
if totalcpu > 60% for 2 cycles then alert
if totalcpu > 80% for 5 cycles then restart
if mem > 100 MB for 5 cycles then stop
if loadavg(5min) greater than 10.0 for 8 cycles then stop
您可以使用像Monit这样的看门狗来监视您关心的进程,并在它们消耗过多资源时重新启动它们。
像这样的东西将被用来监控 Apache:
因此,如果 Apache 进程或其任何子进程的 cpu% 超过 40%,则发送警报。如果超过 80%,请重新启动 Apache。
如果 Apache 由于某种原因没有运行,Monit 也会启动它,这是保持关键服务正常运行的合理方法(如果您没有 Upstart 之类的东西可用)。
这假定您有一组可以作为此类监视目标的进程。据推测,您怀疑某个特定的应用程序可能存在问题。
当您的 LA 启动并且您无法通过 ssh 登录时,请尝试Gray Goo ,这是一个小型可用且可靠的远程命令执行服务器和客户端,专为紧急情况而设计:
https://code.google.com/p/greygoo/
负载是任务的总值,还有待运行的处理工作。
它衡量的是在每个进程都获得了公平的 CPU 时间片后剩余的处理量。实际上,它给出了系统处理进程间资源竞争的程度的一个数字。
如果进程导致大量 IO 使用,这将指向内存问题(使用太多内存并积极交换)或潜在的 I/O 问题,IOWait 也会增加负载。如果它只是一个耗尽 I/O 负载的进程,它通常会受到惩罚,而不会对其他进程造成太大影响。
我不认为你可以简单地杀死一个进程来解决这样的问题,因为问题源于几个进程对 CPU 的需求。不过,您可以为一个特定进程终止进程组或线程池。
这是一个简单的 bash 脚本,如果系统负载高于某个限制,它可以终止进程。
在此示例中,如果负载高于 2.5,脚本将终止“命名”进程。
如果负载下降到这个水平以下,那么它会检查 named 是否正在运行,并在需要时启动它。