estou enfrentando um problema extremamente estranho em relação a um servidor, ele congela / trava aleatoriamente sem saída no servidor e não responde a teclas curtas e exige inicialização a frio, quando inicializa com inicialização a frio, sem erros na tela de inicialização.
Não está congelando sob carga pesada, com cerca de 9-20% de falha na CPU, média de carga em torno de 2-5 (cpu de 12 núcleos) e 128gb de ram
Tentamos verificar logs, nada aparece como pânico do kernel ou qualquer coisa relacionada ao problema em si.
Em todos os congelamentos após a inicialização a frio, quando verificamos o log, vemos o OOM reaper normal matando o php procces (os usuários atingem os limites), mas nada muito abusivo, mas sempre no OOM, às vezes, quando o servidor congela no log, você vê o tempo atual , e às vezes, como mostra após a hora atual da falha, algumas linhas da data anterior e congela.
Nada nos logs pode determinar o software relacionado, ou sob carga pesada, apenas operação normal, esta é uma máquina atualizada da antiga, que ficou estável por anos .. Os congelamentos são aleatórios, podem ser após uma semana do servidor, ou dois dias ou três semanas e etc...
Também tentamos extrair o dump vmcore do server freeze, mas ainda nada pega lá.
É apenas congelar sem saída de tela, mas o servidor ainda está em execução, mas não é possível acessar ssh nada, também kvm, como eu disse, não mostra nenhuma saída na tela.
Poderia estar relacionado a talvez hardware defeituoso? Como minha suspensão é sobre RAM com defeito?
Estou extremamente perdido com este problema .. Obrigado