CentOS 5.10 / VMWare ESX 5.1
Eu tenho um servidor de e-mail mais antigo executando o CentOS 5.10 (com SendMail) e está apresentando travamentos intermitentes em que o sistema deixa de responder completamente. Durante esses períodos, não consigo me conectar a ele e o console virtual não responde.
A parte estranha é que nosso grupo de administração VMWare não está vendo nenhum pico de recurso óbvio que indicaria recursos insuficientes, picos de carga etc. em TODA a atividade de log durante o tempo de travamento, o que sugere que essas interrupções são graves o suficiente para impedir o registro (ou talvez haja um problema de sistema de arquivos/disco).
A única anormalidade é que o registro do sendmail na caixa era bem alto (98 em vez do nível 9 normal). Em breve vou colocar tudo de volta ao normal.
Estou perplexo sobre onde posso obter mais informações aqui. Existe um despejo de thread que me diga no que o sistema operacional estava trabalhando durante o travamento?
Informação adicional:
- A versão do kernel é:
2.6.18-371.4.1.el5 #1 SMP Thu Jan 30 06:09:24 EST 2014 i686 i686 i386 GNU/Linux
- O armazenamento é feito em uma SAN compartilhada.
- As ferramentas VMWare não estão instaladas no sistema de acordo com a política interna, no entanto, estamos executando há muito tempo sem ferramentas VMware, então não achamos que a ausência delas seja necessariamente a causa raiz.
- A versão específica do VMWare é: VMware ESXi 5.1.0 build-2000251
- O hardware é IBM 3850 M2, modelo 7233AC1
Então, CentOS 5.10 de 32 bits... Isso não é necessariamente um problema...
Mas você sempre deve ter as ferramentas VMware instaladas ao executar um sistema operacional compatível com VMware. Isso pode ser extremamente útil quando a memória do host vSphere/ESXi fica restrita, além de adicionar o driver de balão de memória, melhores opções de interface NIC (para seu sistema EL5) e gerenciamento de energia.
Em geral, observe o que a SAN está fazendo no momento em que esses problemas ocorrem. Além disso, se você não estiver usando ferramentas VMware, há uma boa chance de que o ESXi não esteja em um nível de revisão estável . Informe o número de compilação do ESXi. Você o verá na parte superior do vSphere Client quando conectado ao host.
Editar:
Como este é um cluster do vSphere, você pode solicitar que a equipe verifique a alocação de memória. Já vi VMs do Linux travarem ou travarem devido à configuração incorreta da memória. Isso pode incluir a configuração do limite de RAM no cliente vSphere para a VM em questão. Isso também pode incluir situações em que seu cluster está muito comprometido na RAM e/ou em que as VMs receberam RAM demais.
Consulte: Educação vSphere - Quais são as desvantagens de configurar VMs com *muito* RAM?
Qualquer análise mais profunda exigiria ver algumas das telas de status do cluster/recurso do VMware.
Eu só queria fechar o ciclo neste. Os travamentos misteriosos pararam de ocorrer depois que reduzimos o log do SendMail de 99 para 9 (padrão). Reconhecidamente, essa foi uma configuração de nível de log realmente alta, mas nunca vi isso paralisar completamente um servidor. Também não tenho ideia de quanto tempo foi definido dessa maneira.
Meu palpite é que a natureza intermitente disso resultou de uma combinação de velocidades de E/S de disco medíocres e picos ocasionais de carregamento de SMTP.
Obrigado a todos pela ajuda.