我们正在使用巨大的 hadoop 集群。
我们有 736 台数据节点机器,每个节点有 16 核 X 2 线程。
在某些机器上,我们看到 CPU 平均负载(98-128 持续 5 分钟)。
经过深入调查,我们确定:
no HW problem
no Disk proble
no network problem
no infra problem
我们仍然没有检查的是关于调整 linux 参数和调整内核参数。
有哪些参数或任何内核参数可以帮助机器在大多数 CPU 低负载平均情况下获得良好的 CPU 工作。
http://linuxrealtime.org/index.php/Improving_the_Real-Time_Properties
如果是这样,我认为您在 CPU 峰值时正在运行 hadoop 作业,资源消耗取决于作业的作业复杂性和定义的参数。我希望你也在上面运行纱线?yarn 是资源密集型应用。请使用资源队列来调节资源消耗。
性能调优是一个复杂而庞大的领域。硬件、内核参数、软件设置、设置架构甚至更多因素都需要考虑。
当您运行大型设置时,深入该领域是有意义的,因此我建议您从阅读 RHEL 性能调优指南开始。这应该为该主题提供一个很好的指南,并提供各种建议和想法。
https://access.redhat.com/documentation/en-us/red_hat_enterprise_linux/7/html/performance_tuning_guide/index
您的问题包含的信息和细节太少,无法在内核参数调整的方向上提供合理的建议。