我正在做一个研究项目,我们通常在服务器上开始工作,大约需要一两天的时间才能运行,然后我们回去看看结果。问题在于,在某些情况下,我们正在使服务器资源匮乏,并且由于某些作业失败,它正在影响我们的结果。
我想生成一份报告,我们可以回顾一下以确定服务器资源的使用情况,并将其与作业交叉引用。
我试过用 atop 做这个(使用它的 rawfile 格式)但是在不同的机器上读取这种格式有很多问题(即不同版本的 linux 或 atop 等)
所以我想知道是否有更优雅的解决方案?最终,我需要能够深入了解每个进程级别的资源消耗,并查看用于实例化进程的命令(如 htop 中的命令列。)