Eu tenho um Dell Poweredge R630 com 4 unidades em um RAID. Não tenho certeza se é RAID 10 ou RAID 5 porque não encomendei ou configurei o servidor originalmente e sou apenas o administrador de rede padrão, não é meu trabalho principal. O servidor está executando o vSphere Essentials ESXi 6.7 e hospeda meia dúzia de VMs.
Eu uso o backup de VM do Altaro em execução em uma VM em outro host para fazer backup desse host, bem como de um host ESXi 6.5. Quando comecei a fazer backup das VMs neste host, descobri que os backups falhariam aleatoriamente. Qualquer noite 2 ou 3 das 5 VMs que estou fazendo backup falharia, mas não as mesmas VMs todas as noites. Algumas semanas atrás, eles começaram a sempre falhar.
Ao trabalhar com o suporte do Altaro para descobrir por que estava falhando, eles encontraram isso nos logs do Altaro:
2019/09/24 00:11:31.034: DISKLIB-LINK : "san://snapshot-155[Storage] VMName/[email protected]:[email protected]/XXX" : failed to open (Unknown error).
2019/09/24 00:11:31.034: DISKLIB-CHAIN : "san://snapshot-155[Storage] VMName/[email protected]:[email protected]/XXX" : failed to open (Unknown error).
2019/09/24 00:13:18.446: VixDiskLib: Detected DiskLib error 2338 (NBD_ERR_NETWORK_CONNECT).
2019/09/24 00:13:18.446: VixDiskLib: VixDiskLib_Read: Read 437 sectors at 19619760 failed. Error 14009 (The server refused connection) (DiskLib error 2338: NBD_ERR_NETWORK_CONNECT) at 5235.
O suporte deles diz que essas entradas de log, suponho que a última linha em particular, vieram diretamente do host.
Não sendo um especialista em ESXi, não tenho certeza de quais arquivos de log examinar no ESXi para tentar descobrir o que está errado, confirmar se é um problema de unidade no host e determinar qual unidade é para que eu possa substituir isto. Até agora, o vCenter não está emitindo alertas ou avisos sobre um problema de unidade e o host não está indicando um problema com o array.
Outro ponto de dados: a maioria dessas VMs está executando o Windows. Cada um deles está executando o backup do Windows internamente em uma unidade separada e todos estão completos sem erros. Acho interessante que o Windows seja capaz de fazer backup de suas unidades de dentro da VM, mas há um erro de leitura quando o ESXi está fazendo o backup de fora.
Não é um problema de disco rígido do host. O arquivo de log está informando que falhou ao abrir o disco rígido virtual da VM devido a um erro de rede.
Meu palpite é que os backups das VMs que estão no mesmo host que o backup do Altaro provavelmente não falharão. Isso está certo?