Tenho pesquisado sobre MTTF, MTBF, MTBR e MTBF para nossos servidores HP Gen9 rodando em nosso ambiente de produção.
Raiz da minha pergunta, deve estar preocupado ou não.
Não consigo obter bons dados, pois cada servidor tem uma mistura de hardware.
Na minha última empresa rodamos cerca de 2000 servidores dell r210 r410 r710 Eu diria que em média tínhamos cerca de 5 servidores por dia que apresentavam algum tipo de falha. Portanto, cerca de 0,25% do servidor ficou inativo e precisou substituir uma peça antes de poder ser usado novamente.
Na minha última empresa tudo foi configurado em par de HA, infraestrutura N+2 para que não houvesse impacto na produção. Conseguimos substituir os servidores e continuar
No meu escritório atual, executamos 9 servidores (HP Gen9, 56 VM's Hyper-V) não mantemos muitas peças de reposição à mão e o datacenter não é gerenciado, portanto, se algo morrer, teremos que dirigir cerca de 45 minutos para substituir nada.
Meu CTO nem o gerente de TI parecem estar preocupados, eles tiveram cerca de 2,5 dias de inatividade no ano passado, eu adivinho que precisamos agrupar os servidores, mas eles não veem necessidade.
Existe um certo ou errado aqui? Não tenho certeza do que fazer.
Eu sei que não é minha responsabilidade se algo acontecer é no CTO. Esta é uma empresa muito pequena, apenas o CTO, gerente de TI, eu (dev ops) e 1 cara de help desk.
Sobre toda a experiência na execução de um ambiente de produção, é muito limitada, a maneira como muitas coisas são configuradas eu chamaria de nível muito júnior, nem meu CTO nem meu gerente de TI sabiam muito sobre cluster antes de eu chegar lá. Eles estavam no meio de um projeto para configurar DR sem HA, que eu contrariava, mas perdi.
Não se preocupe com os valores de MTTF, MTBF, MTBR e MTBF... por que eles se aplicam às especificidades do seu ambiente?
Os servidores possuem redundâncias internas e podem ser extremamente estáveis em produção. Mas isso depende do seu ambiente, da matriz/composição do disco, tipos de discos, quantidade de RAM, configuração da CPU, características térmicas, potência, etc.
Empregar alguma forma de alta disponibilidade pode reduzir o potencial de tempo de inatividade e oferece um local para mudar suas cargas de trabalho em caso de falha.
Esta é uma questão de risco financeiro e operacional.
Talvez o custo incremental de passar de autônomo para cluster seja alto o suficiente para não fazer sentido para os negócios? Talvez os 2,5 dias de tempo de inatividade (disponibilidade de ~99,3%) sejam suficientes para sua operação. Você deve se concentrar na proteção externa e bons backups. Todos os seus sistemas HP Gen9 estão sob garantia do fabricante hoje, então você tem acesso às peças. Se você tem RAID, fontes de alimentação/ventiladores redundantes e energia estável, você cobriu as áreas mais críticas.
Pense nisso a partir de uma perspectiva financeira e descreva os riscos, custos associados e tente fazer um business case convincente para o que você deseja.