Como descobrir detalhes sobre hardware na máquina Linux?

Question

Jens Erat

Asked: 2014-11-12 07:00:18 +0800 CST2014-11-12 07:00:18 +0800 CST 2014-11-12 07:00:18 +0800 CST

Como sou notificado sobre erros de ECC no Linux?

772

Como sou notificado quando uma máquina Linux equipada com memória ECC reconhece uma falha de memória? Estou interessado em erros corrigíveis e incorrigíveis.

se uma mensagem for gravada em dmesg/syslog, isso já está bom, mas adoraria saber o que procurar
instalar daemons adicionais (como smartmontools para discos rígidos) é aceitável
Monitoramento Nagios/Icinga seria outro caminho a percorrer
nem todas as máquinas a serem monitoradas possuem IPMI

Os sistemas de interesse possuem placas Supermicro (X9SCM-F), em relação a um Microserver HP N54L Estou apenas curioso, mas não ligo muito. Todos os sistemas rodam Debian ou Ubuntu Linux.

5 respostas

Voted

maxschlepzig · Answer 1 · 2017-12-17T09:41:17+08:00

O kernel do Linux suporta os recursos de detecção e correção de erros ( EDAC ) de alguns chipsets. Em um sistema suportado com ECC , o status do seu controlador de memória é acessível via sysfs:

/sys/devices/system/edac/mc

A árvore de diretório sob esses locais deve corresponder ao seu hardware, por exemplo:

/sys/devices/system/edac/mc/mc0/csrow2/power
/sys/devices/system/edac/mc/mc0/csrow0/power
/sys/devices/system/edac/mc/mc0/dimm2/power
/sys/devices/system/edac/mc/mc0/dimm0/power
/sys/devices/system/edac/mc/mc1/power
...

Dependendo do seu hardware, você pode ter que carregar explicitamente o driver edac correto, cf.:

find /lib/modules/$(uname -r) -name '*edac*'

O edac-utilspacote fornece um front-end de linha de comando e uma biblioteca para acessar esses dados, por exemplo:

edac-util -rfull          
mc0:csrow0:mc#0memory#0:CE:0
mc0:csrow2:mc#0memory#2:CE:0
mc0:noinfo:all:UE:0
mc0:noinfo:all:CE:0
mc1:noinfo:all:UE:0
mc1:noinfo:all:CE:0

Você pode configurar algum tipo de trabalho cron que periodicamente chama eac-utile alimenta os resultados em seu sistema de monitoramento, onde você pode configurar algumas notificações.

Além disso, correr mceloggeralmente é uma boa ideia. Depende do sistema, mas erros ECC incorrigíveis/corrigíveis também são relatados como exceção de verificação de máquina ( MCE ). Quero dizer, mesmo breves períodos de aceleração da CPU devido à temperatura mais alta são relatados como MCE.

Michael Hampton · Answer 2 · 2014-11-12T07:50:03+08:00

Michael Hampton

2014-11-12T07:50:03+08:002014-11-12T07:50:03+08:00

mcelogirá monitorar o controlador de memória e relatar eventos de erro de memória para o syslog e, em algumas configurações, pode páginas de memória ruins off -line . Isso é, obviamente, além de seu uso usual para monitorar exceções de verificação de máquina e uma variedade de outros erros de hardware.

A maioria das distribuições Linux possui um serviço configurado para executá-lo como um daemon, por exemplo, para EL 6:

chkconfig mcelog on
service mcelog start

10

spaceman spiff · Answer 3 · 2020-01-05T15:01:56+08:00

spaceman spiff

2020-01-05T15:01:56+08:002020-01-05T15:01:56+08:00

O rasdaemonpacote foi criado como um substituto para edac-tools, e os kernels mais recentes nem mesmo suportam edac-toolsou mcelog.

Uma atualização para os drivers do kernel Linux EDAC mudou a forma como os contadores de erros de memória eram gerenciados no espaço do usuário, portanto, edac-toolse mcelogestão efetivamente obsoletos.

9

ewwhite · Answer 4 · 2014-11-12T07:52:28+08:00

Isso depende do hardware do seu servidor. Uma caixa branca ou um sistema Supermicro lidará com isso de maneira diferente de um Dell, HP ou IBM...

Um dos recursos de valor agregado dos servidores de ponta é que há um nível de integração de hardware/SO. Os servidores Nicer informarão o que você está procurando como parte dos agentes de gerenciamento e/ou solução de gerenciamento fora de banda (ILO, DRAC, IPMI).

Você deve usar as ferramentas nativas da sua plataforma de hardware.

Trecho de servidores HP ProLiant executando Linux e os agentes de gerenciamento HP:

Trap-ID=6056
ECC Memory Correctable Errors  detected.

e

Trap-ID=6052
Advanced ECC Memory  Engaged

ou um mais grave

Trap-ID=6029
A correctable memory log entry indicates a memory module needs to be
replaced.

ou o pior... Ignorar um erro por 6 dias até que o servidor trave por causa da RAM ruim

0004 Repaired       22:21  12/01/2008 22:21  12/01/2008 0001
LOG: Corrected Memory Error threshold exceeded (Slot 1, Memory Module 1)

0007 Repaired       02:58  12/07/2008 02:58  12/07/2008 0001
LOG: POST Error: 201-Memory Error Single-bit error occured during 
memory initialization, 
Board 1, DIMM 1. Bank containing DIMM(s) has been disabled.

0008 Repaired       19:31  12/08/2009 19:31  12/08/2009 0001
LOG: ASR Detected by System ROM

Estes foram registrados, além de armadilhas SNMP e e-mails foram enviados.

Genericamente, você verá exceções de verificação de máquina no buffer de anel do kernel, para que possa verificar dmesgou executar mcelog . Em minhas experiências com equipamento Supermicro sem IPMI, isso não detectou tudo e ainda tive erros de RAM escapando pelas rachaduras e causando interrupções. Infelizmente, isso levou a políticas arcaicas de queima de RAM antes das implantações do sistema.

gabriele · Answer 5 · 2020-03-13T00:09:14+08:00

gabriele

2020-03-13T00:09:14+08:002020-03-13T00:09:14+08:00

Conforme mencionado por outro pôster mcelog, está obsoleto e efetivamente substituído por rasdaemon. Eu escrevi sobre como instalá-lo e configurá-lo em muitas distribuições Linux, incluindo instruções para configurar corretamente os rótulos DIMM.

6

Como sou notificado sobre erros de ECC no Linux?

Você pode passar usuário/passar para autenticação básica HTTP em parâmetros de URL?

Ping uma porta específica

Verifique se a porta está aberta ou fechada em um servidor Linux?

Como automatizar o login SSH com senha?

Como posso dizer ao Git para Windows onde encontrar minha chave RSA privada?

Qual é o nome de usuário/senha de superusuário padrão para postgres após uma nova instalação?

Qual porta o SFTP usa?

Linha de comando para listar usuários em um grupo do Windows Active Directory?

O que é um arquivo Pem e como ele difere de outros formatos de arquivo de chave gerada pelo OpenSSL?

Como determinar se uma variável bash está vazia?

Como sou notificado sobre erros de ECC no Linux?

5 respostas

relate perguntas