Eu tenho um servidor duplo Opteron rodando Linux com libvirt para hospedar várias VMs. As VMs funcionam bem e o servidor processa bem, mas noto que uma CPU sempre roda em torno de 69C (acelera em 70C) e a outra roda em torno de 15C.
Isso não me parece normal? Os dois não deveriam estar um pouco mais próximos em temperatura?
Não tenho certeza de como diagnosticar mais. Talvez não haja pasta térmica suficiente em uma das CPUs?
Editar: A placa-mãe é ASUS KGPE-D16 e resfriada por duas ventoinhas Noctua NH-U9DO .
Observe que acho que as temperaturas podem estar acima do ambiente, em vez de valores absolutos. Quando o servidor está ocioso, as temperaturas da CPU caem para 2C e 13C. Estou usando a configuração lmsensors daqui
O problema acabou sendo um dissipador mal encaixado. Talvez mal ajustado não seja a descrição certa. Acontece que você tem que colocar pasta térmica no dissipador de calor, não a tampa de plástico que cobre o dissipador de calor.
Depois de remover a tampa de plástico, a CPU está boa e legal, obrigado a todos!
Na minha experiência, é normal que componentes emparelhados em um gabinete funcionem em temperaturas diferentes, porque o fluxo de ar não é o mesmo em todos os lugares. Aqui está um gráfico da temperatura do HDD da minha caixa de colo. As unidades são espelhadas, portanto, as cargas de trabalho nelas são quase idênticas.
Como você pode ver, eles rastreiam um ao outro, mas não são os mesmos; eles também estão, em média, separados por apenas 6°C. Independentemente de seus sensores relatarem temperatura absoluta ou superaquecimento, uma diferença de 55°C sob carga parece muito errada. Se você tiver certeza de que os dados estão corretos, considerando que a diferença quiescente cai para 10C, que é o tipo de diferença que vejo devido ao fluxo de ar, eu suspeitaria de um dissipador de calor mal ajustado.
Não é. A menos que você tenha alguns problemas sérios com o fluxo de ar. Ou um dos coolers está ruim. A temperatura VAI variar - mas não tanto (70 vs. 15 graus Celsius).
Dado o quão baixo é 15 graus, eu diria que (a) seu sensor está desligado (você realmente armazena o servidor em uma sala fria?).
Eu também assumiria que uma das CPUs simplesmente não funciona, por qualquer motivo.
Pequenas diferenças são normais. Alguns pequenos maiores podem ser (fluxo de ar vindo à minha mente). mas aqui falamos sobre um ser FRIO.
Isso pode ser resfriamento ou carregamento desigual (dada a diferença de temperatura, sua situação provavelmente é de carregamento desigual). Você deve usar algo como prime95 para carregar todos os núcleos uniformemente e ver se as temperaturas ainda variam. Caso contrário, você precisará equilibrar as VMs, verifique se seus aplicativos são multithread e ocupados. Como fazer isso depende do seu software e da carga de trabalho individual, portanto, está realmente além do escopo da questão. Lembre-se de que não há nenhuma vantagem real em fazer isso se você não tiver carga suficiente para completar uma única CPU/núcleo. Na verdade, sua VM pode evitar deliberadamente o uso de uma segunda CPU para que possa entrar em modos de economia de energia em vários -sistemas de CPU.
Se você reduziu para resfriamento. Uma pequena diferença de até 10C pode ser pouca (ou muita!) pasta térmica. Uma diferença maior indica um problema significativo ou diferença entre os coolers da CPU. Pode ser que alguém tenha bloqueado o fluxo de ar, um dissipador de calor tenha se soltado, etc.
Eu teria que concordar com, temperatura defeituosa. sensor, pois 15C é apenas 59F!!! A menos que o computador esteja em um datacenter extremamente frio, imagino que a temperatura do ar ambiente seja superior a 59F! Você tenta atribuir as VMs ao núcleo de baixa temperatura e vê se há alguma alteração; caso contrário, eu suspeitaria muito que o sensor está com defeito.
Você também pode querer olhar para a saída de
dmesg
(mensagens de inicialização) e ver se há algo fora do comum lá.