Eu tenho uma configuração de VM Ubuntu 16 x64 MUITO simples no meu host ESXi, que atua como um servidor de arquivos. Possui NFS/SMB e MDADM instalados. Está totalmente atualizado.
Duas vezes na última semana, ele travou com um erro “rcu_sched detected stalls on CPUs
e algo sobre instantes insuficientes.
Fiz uma captura de tela desta vez, mas é tão ruim que o ESXi não consegue matar a VM e, após a reinicialização, está causando uma reconstrução do meu MDADM Array. Eu me preocupo que isso cause danos desnecessários aos meus HDDs e me pergunto qual poderia ser o problema. A VM recebe muitos recursos extras com 1 vCPU e 4 vThreads com 6 GB de RAM.
Alguma ideia? A VM voltou a funcionar agora, então posso depurar qualquer informação solicitada. Estou pensando apenas em mudar para uma distribuição baseada em RHEL, mas gostaria de descobrir o problema em relação à reconstrução em um sistema operacional Linux diferente.
PS: Eu sou o usuário principal e, pelo que me lembro, não havia operações intensivas de R/W acontecendo na época.
TLDR; Cerca de uma semana depois, perdi um núcleo da CPU, provavelmente devido a superaquecimento/dissipador de calor/ventilador mal posicionado.
Se você estiver usando o ESXi, eu iniciaria outro sistema operacional e verificaria as temperaturas e/ou consideraria recolocar o dissipador de calor da CPU.
Este post teve muitas visualizações e, quando tive o problema, o Google tinha muito pouca informação para mim. Por favor, compartilhe suas experiências em comentários ou respostas!
Linha do tempo:
Pesquisas adicionais sobre o ESXi me mostraram que o ESXi NÃO coleta as temperaturas do dispositivo sem algum tipo de adição de hardware avançado que eu não tinha (possivelmente porque não usei um computador da "Lista de compatibilidade de hardware". ( https://communities .vmware.com/thread/547244 ). Se tivesse, o ESXi provavelmente poderia ter estrangulado minha CPU. Agora eu uso o KVM, que verifica todas as temperaturas do meu dispositivo por meio de métodos normais e reage de acordo. Não apenas isso, mas minha velocidade de RW aumentou muito conforme meu hipervisor agora também é meu servidor de arquivos versus antes eu tinha que passar os discos para uma VM de servidor de arquivos, já que o ESXi não oferece suporte a SMB/NFS/MDADM etc. (estou falando de um aumento de 2 ou 3 vezes nas velocidades de RW agora que meu clientes falam diretamente com o Hypervisor/FileServer).