在我正在处理的集群上,有一个节点显示 CPU 温度很高。
该节点有 2 个 Intel(R) Xeon(R) CPU E5-2680 v4 @ 2.40GHz。
来自 lm-sensors 的传感器命令显示一个 CPU 的温度约为 70°C,另一个 CPU 的温度为 90°C。负载为 100%。它实际上是超载的,但负载不能减少。温度与负载高度相关。当前频率高于最大频率。max : 2400000 cur: 5280000 所以我不认为有节流。
温度差异是否表明冷却问题?
根据我的理解,英特尔文档显示温度情况为 86°C,这意味着 CPU 在 90°C 时的寿命将会缩短。
这些温度已经快一周了,我应该寻找解决方案(降低 CPU 速度)来降低 CPU 的温度吗?该节点将来可能会运行其他密集型 CPU 作业。
在这些温度下运行 CPU 符合规格,但它很可能会降低组件的使用寿命。您绝对应该考虑在水平和垂直方向上扩大规模,以减少负载。如果在内部部署,您还可以检查是否有更有效的冷却选项。