Eu tenho um HP DL380e Gen8 com controlador RAID P420 que foi ligado 24h por dia no meu trabalho anterior por 7 meses sem problemas ao executar algumas VMs. Depois de mudar de emprego, fiquei com o servidor em casa por cerca de 3 meses desligado. Liguei hoje depois de adicionar uma placa de rede de 10 Gbe (HP NC523SFP) o servidor inicializou bem, fiz o login no sistema operacional (Centos 7) e tudo parece bem. Após cerca de 45 minutos ouvi o FAN do servidor girar em 100% e depois voltar ao normal, conectei um monitor e tenho uma tela vermelha da morte com um erro de NMI.. Verificando no ILO o erro refere-se ao PCI- E Slot 1 Raiser card 1 que é onde o controlador P420 está conectado (10Gbe está no Slot 3 riser card 1). Eu estava pensando que o problema foi causado pelo 10Gbe, mas depois de removê-lo o servidor ainda fica com a tela vermelha da morte. EU' Também já tentei mover o 10Gbe no slot PCI-E do outro lado da placa riser mas nada mudou, também tentei remover o módulo Smart Cache com a bateria e mover o P420 no Slot 3. O que posso verificar ? A única coisa que não tentei foi inicializar sem os HDDs conectados e/ou cabos de backplane removidos do P420. É possível que ter a placa de 10Gbe no mesmo lado da placa riser tenha quebrado o controlador P420? Quando inicializei pela primeira vez com o 10Gbe, lembro que havia uma mensagem sobre a opção de disco / rom de inicialização que eu não tinha visto antes e ignorei completamente. A tentativa é inicializar sem os HDDs conectados e/ou cabos de backplane removidos do P420. É possível que ter a placa de 10Gbe no mesmo lado da placa riser tenha quebrado o controlador P420? Quando inicializei pela primeira vez com o 10Gbe, lembro que havia uma mensagem sobre a opção de disco / rom de inicialização que eu não tinha visto antes e ignorei completamente. A tentativa é inicializar sem os HDDs conectados e/ou cabos de backplane removidos do P420. É possível que ter a placa de 10Gbe no mesmo lado da placa riser tenha quebrado o controlador P420? Quando inicializei pela primeira vez com o 10Gbe, lembro que havia uma mensagem sobre a opção de disco / rom de inicialização que eu não tinha visto antes e ignorei completamente.
Os controladores RAID falham com bastante frequência, então eu não ficaria muito surpreso se ele simplesmente decidisse morrer em você.
A maneira mais fácil de solucionar esses problemas é começar com a configuração mínima de inicialização, que normalmente você pode encontrar nos manuais de serviço da maioria dos fornecedores. Isso é essencialmente 1 CPU, 1 pente de RAM e nada mais conectado. Em seguida, você começa a adicionar componentes até obter um erro semelhante novamente e, dessa forma, encontra o componente defeituoso.
Lembre-se também de que os cabos são componentes semiativos, já vi técnicos de serviço trocarem placas-mãe e controladores RAID quando o componente defeituoso era um riser PCI ou um cabo SAS.
Remova a placa de sistema da bandeja de metal. Remova o dissipador de calor do chipset Southbridge. Raspe toda a pasta térmica petrificada do chip e aqueça. coloque uma pasta térmica de qualidade decente no chip. Substitua o dissipador de calor. Recoloque a placa do sistema na bandeja de metal e remonte o servidor. O problema deve ter desaparecido agora e você poderá ver o B320i RAID no gerenciador de configuração. (este é o adaptador que eu estava usando).
Isso funcionou nas duas últimas placas DL380e Gen8 com a tela vermelha de mensagens de morte.