我们尚未遇到任何应用程序错误,但我们的监控工具表明我们的应用程序正在其资源限制下运行。我们应该先添加更多堆还是添加额外的虚拟机?
我们在托管集群中的 WebLogic/JRockit 上运行了一个应用程序。
我们有 AppDynamics 监控这个应用程序,它显示主要垃圾收集频繁发生(平均每 1-2 分钟一次!!!)。当一个主要的垃圾收集运行时,它确实会回收空间,并且堆使用的较低范围相当低,即使系统已经运行了一段时间(几周/几个月)。此外,我们针对生产运行了 AppDynamics 集合泄漏检测,它没有发现任何泄漏。(我们无法运行自定义监控,因为 JRockit 不支持它。)但总体而言,似乎没有重大泄漏,只是系统需要比当前更多的资源。
我们有两个非生产环境也在运行这个应用程序,减少了资源和负载(开发和测试)。测试环境有 2/3 的 VM 数量和每个 VM 的 1/2 堆。我们针对这个环境运行了一些负载测试,但结果并不是很有帮助。虽然我们可以使用自动化脚本重新创建用户数量,但我们的测试环境中的数据非常不同——查询返回的数据要少几个数量级,等等。(创建更好的负载测试环境当然在 ToDo 列表中,但不太可能由于官僚主义的原因,实际上很快就会发生。)即使我们可以投入一切,测试环境也没有出汗。
两个选项,A)添加更多堆。看起来这肯定会有所帮助,但完成这项工作需要大量文书工作(需要向物理服务器添加更多内存,这意味着服务器重启涉及许多其他应用程序等)。另外,我不知道要添加多少内存,我们不能只是“在产品中测试”。B)为此应用程序添加另一个(或两个)VM。这将相当容易,我们在另一台物理服务器上有空间,所以我们可以很快完成它。但我不确定它会不会有多大帮助,如果它没有帮助,那么稍后再回到选项 A 会更加困难。
具体问题:1)上述选项中的任何一个明显更好(为什么)?2)如果两者都不是明显更好,我会做哪些测试等来决定哪个更好?3) 我应该如何决定和证明要添加多少资源(堆或虚拟机)?(如果它涉及我们已经可用的工具,则在这里加分。)
更新:
- 一个集群中有 3 个 JVM,每个 JVM 都在一个单独的 VM 上。
- 它们位于 Apache 负载平衡器后面,每台服务器的负载大致相等。
- 每个 JVM 有 1 GB 堆。
- 没有 FMW。
假设应用程序已被彻底分析并且不存在内存泄漏(似乎是这种情况),您必须假设在堆中创建的对象是由于应用程序的正常活动造成的。
避免代码优化,和/或根据正在创建的对象的大小和生命周期(这又取决于您使用的特定 JVM)对内存堆进行更精细的调整,除了添加更多内容之外,没有太大的改进空间托管节点到您的域。
这可以使用每个 WebLogic 安装中已经存在的工具(即 WLST)轻松实现。
如何使用 WLST 将受管节点及其各自的节点管理器创建到现有集群中已有详细记录。
我们最终都做了(将更多的堆空间从 1GB 添加到 1.5GB,并将更多的托管节点从 3 个节点添加到 5 个)。
在添加新节点前大约一小时,堆增加了,它本身就足以显着减少垃圾收集的数量和垃圾收集所花费的时间。
添加更多节点只会带来很小的改进,但很难确定它是否真的没有太大帮助,或者在增加堆后是否没有太大的改进空间。