Eu observei esta falha: FS no Datastore corrompido após o volume no armazenamento estar FULL, na verdade aconteceu duas vezes, e a única opção era recriar novamente o novo datastore.
Aqui está o que aconteceu na ordem do tempo:
- armazenamento de dados desconectado (reexportado para hosts ESXi)
- o volume na matriz de armazenamento estava CHEIO em 100%
- FS no armazenamento de dados corrompido (dados perdidos)
Você tem alguma idéia do que pode ser a causa raiz? Infelizmente não tenho registros. A única pista é que o DS estava sempre cheio antes do FS travar. Esse é o comportamento padrão? Estamos usando várias versões do ESX conectadas a este armazenamento: ESX ver. 7, 6.5
Se você usar o provisionamento thin para VMDKs e, especialmente, com a troca/logging ESXi no mesmo volume, você nunca deve ficar sem armazenamento . Se um VMDK thin-provisioned não puder crescer, a VM deverá ser congelada - o congelamento também requer armazenamento, então a VM necessariamente sofrerá danos.
Ao mesmo tempo, o host não consegue gravar em seu próprio armazenamento vital e começa a congelar. Não há realmente nenhum modo de falha fora disso.
Um ESXi precisaria detectar esse perigo um pouco antes de realmente acontecer, trazendo consigo algumas complexidades (os dados podem ser gerados/gravados rapidamente). Portanto, geralmente é sua responsabilidade como administrador: certifique-se de monitorar o uso do disco de perto, de migrar as VMs em crescimento para outro armazenamento desde o início e de estar pronto para adicionar mais discos para expansão do armazenamento.