Tudo bem, então eu tenho basicamente a mesma situação descrita aqui .
As diferenças são:
- ESXi 6.7.0 totalmente corrigido
- SSDs e HDDs locais
A VM está executando uma pilha Nextcloud comum (MySQL, Apache2, PHP).
Esse problema surgiu logo depois que eu atualizei meu ESXi para o nível de patch atual (patch de janeiro ou fevereiro, eu acho. Não houve outras alterações relacionadas ao armazenamento nos sistemas em questão. A única coisa que me vem à mente é que a VM experimenta disco alto load, pois às vezes o ghettoVCB e um backup baseado em ssh se sobrepõem.
Eu posso ver que o kernel emite mensagens que apontam para tempos limite de acesso ao armazenamento. Também acabei de encontrar uma mensagem de log no ESXi que diz:
Lost access to volume UUID (name) due to connectivity issues. Recovery attempt is in progress and outcome will be reported shortly.
Mas não há mais nada relatado.
Única solução para tornar a VM e o ESXi responsáveis novamente, é uma reinicialização forçada do host ESXi.
Vou atualizar esta pergunta à medida que minha pesquisa continua. Se alguém tiver alguma idéia eu agradeço muito a sua ajuda!
Supondo que não haja problemas de conectividade entre o host ESXi e o dispositivo de armazenamento e você já tenha verificado se não há inconsistências de caminho para o LUN (se for o caso), parece que você tem um problema de compatibilidade de driver causado pelo patch ESXi.
Você pode tentar desabilitar o driver vmw_ahci:
Se isso não funcionar, você deve reverter para o patch anterior do ESXi ou tentar restaurar os drivers iniciais (o que pode ser bastante difícil).
Além disso, verificar o vmkernel.log, vobd.log e vmksummary.log pode revelar detalhes sobre a causa exata.
Este foi estupidamente simples: um disco rígido falhou que foi acessado por essa mesma VM como um disco de dados. Estava fisicamente quebrado, mas nem o ESXi nem o conselho de administração viram isso.
TL;DR: Um HDD falhou, mas não foi detectado. Esse problema não estava relacionado ao software.