Servidor dedicado em nuvem privada composto por quatro discos.
Um dos discos contém o sistema operacional (SO). Se o disco falhar, o servidor não iniciará e não poderemos extrair dados dos outros discos de forma simples. Mesmo que o disco esteja montado como somente leitura, ainda teremos que reinstalar o sistema operacional, o que requer o desligamento do servidor.
Eu apreciaria se você pudesse sugerir alguns recursos ou livros para mitigar esses tipos de erros.
Além disso, gostaria de saber como gerenciar o tempo de atividade com esses servidores dedicados "frágeis".
Sua pergunta é um tanto vaga, baseada em uma configuração incorreta e parece hipotética.
Prevenimos o problema NÃO usando um único disco para o sistema operacional
Se o problema ocorrer (ou se o sistema operacional estiver em RAID e o dispositivo RAID falhar/falha no controlador de disco), o próximo passo para a maioria das pessoas seria usar os recursos do console remoto (IPMI, iDRAC, iLO) para mapear um USB virtual/ reconfigurar o armazenamento/restaurar ou reinstalar.
A solução usual é, em primeiro lugar, não estar nesta situação: se o tempo de atividade do serviço é tão importante, ele não deveria depender da permanência de uma máquina.
Caso contrário, você pode migrar da máquina para uma sobressalente e depois desligar a que falhou ou, se isso não for realmente possível, existem algumas maneiras de acelerar a troca (por exemplo, instalar um sistema operacional na nova unidade antes de colocar no servidor, etc)
Se você for usar um sistema operacional "tradicional" de uso geral, use RAID. O desempenho de armazenamento "útil" não depende disso: as partes cruciais do sistema operacional são carregadas na RAM e operam a partir delas de qualquer maneira, sem acessar o disco na maior parte do tempo. Portanto, a ideia de "sem RAID por motivos de desempenho" é totalmente infundada e sua suposição é inútil.
Existe um sistema operacional de armazenamento dedicado baseado em Linux, ESOS . Ele foi projetado para ser instalado em uma unidade flash USB e inicializado a partir dela. Também depende do fato de o sistema operacional operar simplesmente a partir da memória, você pode até remover o pendrive após a inicialização. A configuração é gerenciada de forma que você possa preparar rapidamente outro pendrive, enviar uma configuração e inicializar novamente no "mesmo" sistema.