Windows Server 2008R2 falha com muita RAM

Question

Flup

Asked: 2016-05-18 02:21:29 +0800 CST2016-05-18 02:21:29 +0800 CST 2016-05-18 02:21:29 +0800 CST

Cisco UCS CPU falha ao mesmo tempo todos os dias

772

A situação

Atualização recente de 2.2 para 3.1(1e).
Desde a atualização, às 6h51 (UTC+1), todos os dias, tenho falhas entre zero e três (de aproximadamente 60) dos blades da série B200 em minha instalação.
São sempre as mesmas três lâminas, todas em chassis diferentes.
As falhas se manifestam como um hard hang com as mensagens 'Falha preditiva de CPU' e 'CATERR_N' no SEL.
Ligar e desligar o blade o restaura ao serviço (pelo menos até a próxima falha).
Não há programações únicas ou recorrentes no UCSM que estejam próximas a esta hora do dia.
O Cisco TAC está investigando, mas não esclarece por que as falhas acontecem no mesmo horário todos os dias.

Minha pesquisa e suspeitas

Eu tenho uma teoria de trabalho de que esses são problemas reais de hardware que de alguma forma foram expostos pela atualização do firmware.
Há uma breve menção de algo chamado 'gerenciador de varredura do sensor' no guia de solução de problemas , mas não consigo encontrar nenhum detalhe sobre o que ele faz ou como monitorá-lo.
Quase descartei uma causa ambiental. Nossos monitores de energia e temperatura não mostram nada incomum naquele momento. Não estamos em zona sísmica :-)

A questão

Por que as falhas estão acontecendo exatamente no mesmo horário todos os dias?

1 respostas

Voted

Flup · Answer 1 · 2016-10-07T07:18:21+08:00

Best Answer

Flup

2016-10-07T07:18:21+08:002016-10-07T07:18:21+08:00

Isso acabou sendo um bug na versão de firmware 3.1(1e) (é necessária uma conta Cisco para esse link). É descrito como um 'evento raro' envolvendo o VIC 1340 e uma interrupção de depuração.

A razão pela qual isso estava acontecendo no mesmo horário todos os dias é que estava sendo acionado por—

uso intenso de memória, seguido por
correndo lspci,

e isso é exatamente o que o Puppet estava fazendo todas as manhãs (só o executamos uma vez por dia).

Não está claro por que apenas alguns blades foram afetados por esse bug, mas a atualização para a versão 3.1(1h) resolveu o problema.

2

Cisco UCS CPU falha ao mesmo tempo todos os dias

Você pode passar usuário/passar para autenticação básica HTTP em parâmetros de URL?

Ping uma porta específica

Verifique se a porta está aberta ou fechada em um servidor Linux?

Como automatizar o login SSH com senha?

Como posso dizer ao Git para Windows onde encontrar minha chave RSA privada?

Qual é o nome de usuário/senha de superusuário padrão para postgres após uma nova instalação?

Qual porta o SFTP usa?

Linha de comando para listar usuários em um grupo do Windows Active Directory?

O que é um arquivo Pem e como ele difere de outros formatos de arquivo de chave gerada pelo OpenSSL?

Como determinar se uma variável bash está vazia?

Cisco UCS CPU falha ao mesmo tempo todos os dias

1 respostas

relate perguntas