Temos lutado com o controlador RAID em nosso servidor de banco de dados, um Lenovo ThinkServer RD120. É um Adaptec renomeado que a Lenovo/IBM chama de ServeRAID 8k .
Nós corrigimos este ServeRAID 8k até o mais recente e melhor:
- Versão do BIOS RAID
- Versão do BIOS do backplane RAID
- Driver do Windows Server 2008
Este controlador RAID teve várias atualizações críticas de BIOS, mesmo no curto período de 4 meses em que o possuímos, e o histórico de alterações é apenas ... bem, assustador.
Tentamos estratégias de write-back e write-through nas unidades RAID lógicas. Ainda obtemos erros de E/S intermitentes sob atividade intensa do disco. Eles não são comuns, mas sérios quando acontecem, pois causam timeouts de E/S do SQL Server 2008 e, às vezes, falha de pools de conexão SQL.
Estávamos no final de nossa corda solucionando esse problema. Com falta de coisas pesadas, como substituir todo o servidor ou substituir o hardware RAID, estávamos ficando desesperados.
Quando recebi o servidor pela primeira vez, tive um problema em que o compartimento da unidade nº 6 não era reconhecido. Mudar os discos rígidos para uma marca diferente, estranhamente, corrigiu isso - e atualizar o BIOS RAID (pela primeira de muitas vezes) corrigiu-o permanentemente, então pude usar a unidade "incompatível" original no compartimento 6. Em um palpite, comecei a presumir que os discos rígidos Western Digital SATA que escolhi eram de alguma forma incompatíveis com o controlador ServeRAID 8k.
Comprar 6 novos discos rígidos era uma das opções mais baratas na mesa, então optei por 6 discos rígidos Hitachi (também conhecidos como IBM, também conhecidos como Lenovo) sob a teoria de que um controlador IBM/Lenovo RAID tem mais probabilidade de funcionar com as unidades que normalmente vendido com.
Parece que esse palpite valeu a pena - passamos por três de nossos dias de carga mais pesada (seg, ter, qua) sem um único erro de E/S de qualquer tipo. Antes disso, tínhamos regularmente pelo menos um "evento" de E/S nesse intervalo de tempo. Parece que trocar de marca de disco rígido corrigiu nossos problemas intermitentes de E/S de RAID!
Embora eu entenda que a IBM/Lenovo provavelmente testa seu controlador RAID exclusivamente com sua própria marca de discos rígidos, estou preocupado que um controlador RAID tenha problemas de E/S tão sutis com marcas específicas de discos rígidos.
Portanto, minha pergunta é: esse tipo de incompatibilidade de unidade SATA é comum com controladores RAID? Existem algumas marcas de unidades que funcionam melhor do que outras ou são "validadas" em um controlador RAID específico? Eu meio que presumi que todos os discos rígidos SATA comuns eram iguais e funcionariam razoavelmente bem em qualquer controlador RAID (de qualidade suficiente).
Mesmo para discos rígidos de desktop simples e não RAID, a compra de unidades do fornecedor (com a marcação ridícula esperada) geralmente pode fazer a diferença. Por exemplo, a Apple tem o cuidado de enviar apenas unidades realmente capazes de honrar a bandeira do Mac OS X
F_FULLSYNC
fcntl()
, o que ajuda muito a garantir que coisas como backups do Time Machine funcionem de maneira confiável.Novamente, este é um uso de desktop simples sem RAID envolvido. Qualquer coisa mais complexa do que isso e você definitivamente deseja comprar, se não as próprias unidades superfaturadas do fornecedor, pelo menos os modelos de unidade que você sabe com certeza estão na lista "aprovada" do fornecedor.
Então, para responder à sua pergunta, é comum? Eu diria que sim, mais comum do que você imagina, mesmo além do âmbito empresarial.
Sim , eu encontrei isso com placas de baixo custo e drivers com bugs. No entanto, não , não em um cartão atualizado Adaptec renomeado. Uau é tudo o que posso dizer. Uma coisa a considerar, talvez seja mais um bug na unidade do que no controlador RAID.
Não tenho uma boa resposta, mas como você parece ter esgotado a maioria de suas opções além de substituir a placa (e substituir as unidades funcionou), aqui estão algumas ideias que você pode considerar para a solução de problemas:
As unidades WD eram unidades RE (RAID Edition), certo? A recuperação de erros com tempo limitado é importante, portanto, se você não tiver isso e a unidade estiver tentando recuperar o setor, você terá uma pausa muuuuito longa dessa unidade. Se o controlador RAID estiver sendo paciente e não deixar cair a unidade, você terá um grande problema em suas mãos.
Verifique os dados SMART nas unidades que você removeu e veja se há algo interessante.
Outro comentário sobre a importância do recurso Time Limited Error Recovery (TLER), do suporte do fornecedor NAS/RAID:
Eu não acho que seja comum por si só. No entanto, assim que você começar a usar controladores de armazenamento corporativos, sejam controladores de SAN ou RAID autônomos, geralmente desejará aderir à lista de compatibilidade deles de perto.
Você pode economizar algum dinheiro no preço de etiqueta comprando uma variedade barata de discos, mas essa é provavelmente uma das últimas áreas em que gostaria de economizar - dada a importância dos dados na maioria dos cenários.
Em outras palavras, a incompatibilidade explícita é muito incomum, mas a adesão à compatibilidade explícita é recomendável.
Eu nem sonharia em usar discos SATA para um servidor - nenhum deles tem o ciclo de trabalho esperado de uma unidade de qualidade de servidor e eles não têm o rico conjunto de comandos que o SCSI/SAS possui para monitorar o desempenho e a integridade da unidade. Os servidores Lenovo são baratos e ótimos se você tiver muitos servidores sem nenhum deles realmente importante, mas há uma razão para os servidores da série 300 da HP representarem 40% do mercado - eles funcionam. Em particular, seus controladores de disco 'SmartArray' são incomparáveis em confiabilidade e desempenho e sua garantia pré-falha é uma adição bem-vinda. Não é o mais barato, mas quanto vale o seu tempo? Eu tenho comprado seus servidores (bem Compaq primeiro tbh) por vinte anos e não tenho nenhum problema em comprar os 500-800 novos por ano que eu faço. Verifique-os seriamente.
A resposta como sempre é "depende".
Para determinados armazenamentos corporativos (digamos, EMC), o fornecedor qualificará especificamente unidades e até mesmo carregará firmware personalizado.
Como diz Mark, acho que é melhor quando você segue a lista aprovada de um fornecedor, se houver. A economia de custo inicial é superada pelo tempo gasto tentando caçar gremlins.
Você tem um controlador SAS, esse pode ser o problema. Embora o protocolo SAS possa ser usado para tunelar comandos ATA, a sinalização no nível físico é um pouco diferente (o SAS usa tensão mais alta e diferencial mais amplo). Quase todos os controladores são capazes de falar diretamente com as unidades SATA, mas se houver um backplane (grande? péssimo?) No meio, o sinal pode ser interrompido. Normalmente, no mundo corporativo, anexar drivers SATA diretamente a um controlador SAS não é oficialmente suportado, você deve usar um interposer (uma pequena placa lógica que se conecta diretamente ao disco que de um lado entende o protocolo SAS completo, do outro fala ATA - desta forma, o backplane carrega a sinalização SAS mais alta).
Algo relacionado: misturar unidades SAS e SATA no mesmo backplane tende a falhar, porque a sinalização de todas as unidades (incluindo SAS) é reduzida para o nível SATA.
Muito provavelmente , suas unidades WD precisam de uma atualização de firmware . Consulte esta nota da IBM para fazer download e aplicar a atualização. Como você pode ver nas instruções , as unidades WD estão longe de ser as únicas com problemas.
Se você for colocar suas unidades em um ambiente de servidor exigente, certamente encontrará mais problemas do que em uma configuração típica de desktop para entusiastas.
Você poderia comentar por que escolheu usar a série de unidades Deskstar de classe desktop em vez da série Ultrastar de classe Enterprise/RAID ? Você acha que o custo extra não vale a confiabilidade e a velocidade adicionais?
Como engenheiro que trabalha com controladores RAID, posso dizer que não é incomum que algumas marcas de drives tenham problemas com determinados controladores RAID. Cada unidade tem suas peculiaridades e qualquer modelo de unidade listado na lista de "dispositivos compatíveis" do controlador terá suas peculiaridades contabilizadas pelo controlador. Para que um modelo de inversor apareça na lista, ele deve atender aos padrões de desempenho e confiabilidade do fabricante do controlador. Qualquer unidade que não esteja nesta lista pode funcionar, mas como não passou pelos mesmos testes rigorosos dos dispositivos "aprovados", YMMV.
Em particular, o protocolo SATA permite comandos específicos do fornecedor (não padronizados) que podem ser definidos pela unidade ou pelo controlador. No seu caso, você pode estar vendo um controlador que espera que uma unidade responda a um comando proprietário específico ou uma unidade que espera ver um comando proprietário que nunca chega.
Outra possibilidade é que suas unidades problemáticas não se comportem muito bem sob certas cargas de trabalho estressantes, e o comportamento que você vê foi suficiente para Adaptec/IBM não listar esse modelo de unidade como suportado.
Infelizmente, os protocolos de armazenamento (SATA, SAS, etc) não são tão bons quanto outras interfaces padronizadas (USB, PCI, etc) onde tudo que você precisa é de um barramento e um dispositivo que fale a mesma língua e está tudo bem. Especialmente quando se trata de equipamentos de nível empresarial, os fabricantes de dispositivos e fabricantes de drives gastam muito tempo e energia colaborativos garantindo que os clientes obtenham o melhor desempenho possível das configurações usadas pela maioria dos clientes (ou seja, usando drives fora do lista de "dispositivos suportados"). Uma unidade que não está nessa lista pode ter sido projetada para funcionar de maneira ideal com uma marca diferente de controlador, e os erros que você está vendo são um efeito colateral da otimização.