我发现 Linux 服务器减速到完全无响应的程度(LA 150+ 等)很常见,当稍后使用 sar 或 munin 或其他任何方式查看它时,它会显示进程数量突然快速增加。此时我通常需要重新启动机器,但它总是让我想知道是什么首先导致了问题。
我假设有一个流氓进程进入某种循环,创建大量新进程,然后吃掉内存等并导致锁定。但是,事件发生后,我如何确定哪个是有问题的应用程序/进程?
谢谢
我发现 Linux 服务器减速到完全无响应的程度(LA 150+ 等)很常见,当稍后使用 sar 或 munin 或其他任何方式查看它时,它会显示进程数量突然快速增加。此时我通常需要重新启动机器,但它总是让我想知道是什么首先导致了问题。
我假设有一个流氓进程进入某种循环,创建大量新进程,然后吃掉内存等并导致锁定。但是,事件发生后,我如何确定哪个是有问题的应用程序/进程?
谢谢
安装
atop
并配置它以每 60 秒保存一次快照。然后,当您的系统再次出现故障时,您可以重新启动并使用atop -r /var/log/atop.log
回到过去,看看出了什么问题。