Existem algumas perguntas por aqui que deixam claro que não há uma maneira simples de recuperar dados de uma matriz RAID após uma falha na placa-mãe.
A resposta a essa pergunta em particular sugere o uso de uma placa PCI adicional (que pode ser movida com todos os discos para um novo sistema sem perder dados). No entanto, isso apenas move o problema (e se a placa PCI for frita?). Depois, há sistemas NAS , mas, novamente, e se a placa-mãe do NAS for frita?
[A declaração "primeira e única" após esta edição está incorreta, como Peregrino69 apontou em sua resposta abaixo.]
Tendo em mente que a única razão para os sistemas RAID existirem é preservar os dados do usuário em caso de falha de hardware (sem contar o RAID-0 aqui), espero que a tecnologia RAID tenha resolvido esse problema óbvio por muito tempo. atrás.
Acho ridículo que, toda vez que alguém pergunta o que fazer com um sistema RAID e uma placa-mãe frita, as respostas parecem ser "ei, uma vez consegui me recuperar de uma situação semelhante usando esse truque estranho - pode funcionar para vocês". Também ridículo é que os dados em um único disco SATA sem backup conectado à placa-mãe de PC mais barata seriam facilmente recuperáveis após uma falha na placa-mãe, enquanto os dados em um sistema NAS RAID-5 caro seriam perdidos para sempre na mesma situação.
Por que não existe uma solução padrão para esse problema, projetada há pelo menos 20 anos e implementada desde então por todos os sistemas RAID que valem esse nome?
O RAID foi desenvolvido para garantir a disponibilidade dos dados em caso de falha de hardware específica, nomeadamente uma falha de disco. O RAID 0 excluído em questão também pode ser usado para estender um tamanho de volume sobre a capacidade de uma única unidade física.
As ferramentas de preservação de dados são backup e arquivamento de longo prazo.
Como alguém que moveu discos RAID de hardware de um servidor travado para um novo servidor em várias ocasiões, discordo da premissa da pergunta. Software RAID também foi movido entre sistemas. Estes sempre foram servidores Linux, então eu nunca tive que lidar com situações em que parte da configuração RAID é incorporada a um driver de sistema operacional (um pouco comum em sistemas Windows).
A frase que você está procurando é "importar configuração RAID estrangeira"
Nem todos os sistemas RAID são iguais na maneira como funcionam, muitos armazenam metadados nos discos para que o controlador reconstrua a configuração do array se for redefinido ou substituído (com o mesmo modelo). controladores e seus recursos suportados.
Imagine que eu tenha uma matriz RAID5 com um tamanho de faixa de 1 MB em 12 discos em um controlador Adaptec e o controlador falhe, então eu o substituo por um controlador Intel esperando obter meus dados.
Bem, acontece que o controlador Intel não suporta 12 discos em uma matriz, apenas 8, e tem um tamanho máximo de distribuição de apenas 256 KB. Claro que não vai funcionar. Mesmo que suportasse isso, os metadados do controlador nos discos não estão nem perto do formato para permitir que sejam lidos. E mesmo que tivesse, ele usa o mesmo algoritmo de paridade? O mesmo alinhamento de listras?
Até onde eu sei:
Não existe um padrão sobre onde armazenar metadados de array/controlador em discos de array
Não há padrão sobre qual formato armazenar metadados de array/controlador em discos
de array disks
Existem muitas maneiras diferentes de fazer RAID, o método interno pode ser proprietário
E por que deveria haver uma solução padrão? A solução é simples, compre outro controlador da mesma marca que suporte a importação do modelo de controlador antigo. Não há muito incentivo para os concorrentes rejeitarem seus próprios métodos ou neutralizarem seus conjuntos de recursos em nome da compatibilidade, quando na realidade a falta de compatibilidade não é um grande problema.
Agora, você teve vários exemplos que apontam RAID on-board, existem dois tipos aqui, consumidor e profissional. O consumidor on-board não tem interesse em portabilidade, a menos que seja o mesmo fornecedor do chipset, peguei o Intel RAID5 de uma placa-mãe para outra, ele lê os metadados do disco e reconstrói a configuração. O profissional on-board quase sempre espera que você apenas substitua a placa-mãe ou o servidor por um modelo idêntico e, mais uma vez, deve funcionar. Muitos controladores de nível profissional integrados também podem ser adquiridos no formato de cartão adicional, oferecendo outra opção.
Como respondeu Peregrino69, RAID não é backup, se você está tentando usar RAID para se proteger contra algo diferente de falhas de disco, está fazendo errado.
O RAID é mais útil para fornecer grandes aumentos no tamanho do volume lógico e no desempenho ao usar vários discos juntos e fazê-lo de maneira semi-tolerante a falhas.
"a única razão para os sistemas RAID existirem é preservar os dados do usuário em caso de falha de hardware" ...
Não. No contexto de todos os "sistemas RAID" que existem, este é o segundo ou terceiro motivo mais importante, e deve ser usado como motivo apenas quando muitos detalhes da configuração (de que tipo de falha ele protegerá, quais tipo não) em torno dele são compreendidos. A suposição pode estar correta, no entanto, quando se trata de caixas de NAS residenciais/pequenas empresas.
RAID é uma tecnologia que se origina no mundo dos servidores - onde as razões "fornecem continuidade de operação até que o reparo possa ocorrer de forma segura e/ou conveniente", "fornecem um benefício de desempenho para operações de leitura e/ou gravação" (isso não se limita a RAID0), "fornecer uma abstração fácil de gerenciar do espaço fornecido por vários discos" são pelo menos tão comuns e importantes quanto fornecer o recurso de backup limitado que você descreve.
No mundo dos servidores, existem sistemas (ordens de magnitude mais caros) que usam várias "placas-mãe" relativamente independentes, fontes de alimentação etc.
A capacidade de recuperação de um sistema RAID se você perder o hardware do controlador, desde que as unidades não tenham sido danificadas ou substituídas no curso, é realmente apenas uma função de como o hardware do controlador lida com isso, quais dados de configuração, além dos discos, ele precisa recuperar etc etc. Um controlador de raid/placa principal nas que não deixa você sem recursos fáceis nessa situação deve ser considerado de design defeituoso.
No entanto, um controlador mal comportado ou mal configurado (por exemplo, políticas de cache) pode significar que os dados são substituídos ativamente ou misturados com dados sem sentido. Um defeito elétrico (por exemplo, uma fonte de alimentação que subitamente produz uma tensão muito alta ou um transceptor que reduz a energia em uma porta de dados) pode resultar em danos físicos aos drives. Nesses casos, a recuperação pode se tornar uma operação não trivial, não automática, incompleta ou mesmo impossível. Um RAID funcionando perfeitamente pode fazer alterações ou exclusões de dados de forma perfeitamente consistente causadas por erro do usuário, software com defeito ou software malicioso. Essas são algumas das razões pelas quais a confiabilidade do RAID por si só para fornecer backup é considerada limitada.
Posso dizer com 100% de certeza que você pode substituir uma placa controladora RAID sem perda de dados, pois já fiz isso em pelo menos duas ocasiões. A razão pela qual você pode fazer isso é que os controladores RAID normalmente armazenam a configuração da matriz nas unidades, além de em sua própria memória, e a nova placa apenas perguntará se você deseja importar a configuração encontrada nas unidades. Ao fazer isso, você nem precisa necessariamente ter um cartão de substituição idêntico, embora isso seja certamente mais seguro; uma placa mais recente do mesmo fabricante normalmente também funcionará. ( por exemplo, lembro que a Dell suportava mover um array existente de um PERC5/i para um PERC6/i, mas não vice-versa.) A única coisa a observar é que você precisa ter certeza de que as unidades ainda estão nas mesmas portas no controlador, ou Coisas Ruins acontecem. (Em hardware de servidor real com um backplane adequado, os cabos geralmente são codificados para que você não possa colocá-los na ordem errada.)
No entanto, eu teria muito menos fé em fazer isso com o RAID na placa-mãe. Na minha experiência, o RAID integrado tende a ser terrível de várias maneiras, e eu não confiaria nele com nenhuma configuração diferente do RAID 1 (e isso apenas porque você pode simplesmente pegar uma das unidades espelhadas e usá-la como um único unidade em outro computador sem perda de dados; eu ainda não tentaria realmente mover o espelho e confiar na nova placa-mãe para importar a configuração corretamente).
Portanto, a resposta é que existe uma solução padrão para o problema e ela é implementada em todos os sistemas RAID que valem o nome. É só que o RAID da placa-mãe não vale o nome.
A razão pela qual o RAID não protege contra uma placa-mãe com falha é que ele foi projetado especificamente para resolver o problema de falha de discos - não falhando em controladores de disco, placas-mãe ou outros componentes do sistema.
Na minha experiência, se você tiver centenas de sistemas com discos rígidos giratórios, esses discos são, de longe, o componente com maior probabilidade de falhar. A proteção contra ele pode facilmente reduzir a taxa média de falhas desse sistema em um fator de 5 ou 10. É disso que o RAID protege você.
Dito isto, é uma merda se você usar o RAID de hardware para tornar seu sistema mais confiável, então seu controlador de disco falhar e perder os dados em seus discos, porque você não sabe como replicar a configuração do controlador, ou o controlador escreveu algo nos discos que tornava o estado mais difícil de restaurar, mesmo quando os discos estão perfeitamente OK. Isso acontece. Seria bom se o hardware RAID oferecesse uma solução padrão para isso.
Não tenho certeza do que seria. Onde salvar a configuração?
De qualquer forma, isso é muito mais raro do que uma falha no disco rígido e, mesmo que fosse mais fácil de recuperar, os dados ainda estarão indisponíveis até que você se recupere.
Portanto, se você deseja ser resiliente a isso, torne seu armazenamento resiliente a qualquer falha de um sistema específico, usando alguma forma de armazenamento distribuído, como Ceph ou DFS .
Uma falha que observei no mundo real:
O controlador explodiu, o setor zero de cada unidade conectada foi zerado.
Na verdade, todos os dados saíram ilesos, mas copiá-los foi complicado!
Porque diferentes controladores RAID usam formatos incompatíveis quando distribuem os dados por vários discos. Você pode atenuar o problema usando controladores RAID externos (PCI-Express) que podem ser substituídos ou movidos para outra placa-mãe e comprando os controladores sobressalentes do mesmo início, para que todos os números de versão correspondam. Mesmo assim, alguns controladores não toleram essas ações, portanto, você deve testar antecipadamente se o cenário de recuperação funciona. Outra alternativa é usar o RAID de software ruim, comum em servidores Linux.
Além das excelentes respostas, você também pode dar uma olhada na implementação do ZFS do RAID.
O ZFS é interessante, pois atua como controlador de volume e gerenciador de sistema de arquivos. Isso significa que ele controla os dispositivos de armazenamento em nível baixo (dispositivos RAID, reconstrução, pooling) e alto nível (sistema de arquivos, cache de dados).
O bom da implementação do RAID do ZFS é que, desde que haja uma cópia dos dados do sistema de arquivos disponível em algum lugar em toda a matriz de discos redundantes, esse conjunto de discos pode ser movido para (quase) qualquer outro hardware executando uma versão compatível do ZFS , e a matriz será igualmente recuperável. Não são usadas placas RAID ou RAID integrado, portanto, não há problemas .....