我们尚未遇到任何应用程序错误,但我们的监控工具表明我们的应用程序正在其资源限制下运行。我们应该先添加更多堆还是添加额外的虚拟机?
我们在托管集群中的 WebLogic/JRockit 上运行了一个应用程序。
我们有 AppDynamics 监控这个应用程序,它显示主要垃圾收集频繁发生(平均每 1-2 分钟一次!!!)。当一个主要的垃圾收集运行时,它确实会回收空间,并且堆使用的较低范围相当低,即使系统已经运行了一段时间(几周/几个月)。此外,我们针对生产运行了 AppDynamics 集合泄漏检测,它没有发现任何泄漏。(我们无法运行自定义监控,因为 JRockit 不支持它。)但总体而言,似乎没有重大泄漏,只是系统需要比当前更多的资源。
我们有两个非生产环境也在运行这个应用程序,减少了资源和负载(开发和测试)。测试环境有 2/3 的 VM 数量和每个 VM 的 1/2 堆。我们针对这个环境运行了一些负载测试,但结果并不是很有帮助。虽然我们可以使用自动化脚本重新创建用户数量,但我们的测试环境中的数据非常不同——查询返回的数据要少几个数量级,等等。(创建更好的负载测试环境当然在 ToDo 列表中,但不太可能由于官僚主义的原因,实际上很快就会发生。)即使我们可以投入一切,测试环境也没有出汗。
两个选项,A)添加更多堆。看起来这肯定会有所帮助,但完成这项工作需要大量文书工作(需要向物理服务器添加更多内存,这意味着服务器重启涉及许多其他应用程序等)。另外,我不知道要添加多少内存,我们不能只是“在产品中测试”。B)为此应用程序添加另一个(或两个)VM。这将相当容易,我们在另一台物理服务器上有空间,所以我们可以很快完成它。但我不确定它会不会有多大帮助,如果它没有帮助,那么稍后再回到选项 A 会更加困难。
具体问题:1)上述选项中的任何一个明显更好(为什么)?2)如果两者都不是明显更好,我会做哪些测试等来决定哪个更好?3) 我应该如何决定和证明要添加多少资源(堆或虚拟机)?(如果它涉及我们已经可用的工具,则在这里加分。)
更新:
- 一个集群中有 3 个 JVM,每个 JVM 都在一个单独的 VM 上。
- 它们位于 Apache 负载平衡器后面,每台服务器的负载大致相等。
- 每个 JVM 有 1 GB 堆。
- 没有 FMW。