AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / server / Perguntas / 643542
Accepted
Jens Erat
Jens Erat
Asked: 2014-11-12 07:00:18 +0800 CST2014-11-12 07:00:18 +0800 CST 2014-11-12 07:00:18 +0800 CST

Como sou notificado sobre erros de ECC no Linux?

  • 772

Como sou notificado quando uma máquina Linux equipada com memória ECC reconhece uma falha de memória? Estou interessado em erros corrigíveis e incorrigíveis.

  • se uma mensagem for gravada em dmesg/syslog, isso já está bom, mas adoraria saber o que procurar
  • instalar daemons adicionais (como smartmontools para discos rígidos) é aceitável
  • Monitoramento Nagios/Icinga seria outro caminho a percorrer
  • nem todas as máquinas a serem monitoradas possuem IPMI

Os sistemas de interesse possuem placas Supermicro (X9SCM-F), em relação a um Microserver HP N54L Estou apenas curioso, mas não ligo muito. Todos os sistemas rodam Debian ou Ubuntu Linux.

linux
  • 5 5 respostas
  • 39086 Views

5 respostas

  • Voted
  1. Best Answer
    maxschlepzig
    2017-12-17T09:41:17+08:002017-12-17T09:41:17+08:00

    O kernel do Linux suporta os recursos de detecção e correção de erros ( EDAC ) de alguns chipsets. Em um sistema suportado com ECC , o status do seu controlador de memória é acessível via sysfs:

    /sys/devices/system/edac/mc
    

    A árvore de diretório sob esses locais deve corresponder ao seu hardware, por exemplo:

    /sys/devices/system/edac/mc/mc0/csrow2/power
    /sys/devices/system/edac/mc/mc0/csrow0/power
    /sys/devices/system/edac/mc/mc0/dimm2/power
    /sys/devices/system/edac/mc/mc0/dimm0/power
    /sys/devices/system/edac/mc/mc1/power
    ...
    

    Dependendo do seu hardware, você pode ter que carregar explicitamente o driver edac correto, cf.:

    find /lib/modules/$(uname -r) -name '*edac*'
    

    O edac-utilspacote fornece um front-end de linha de comando e uma biblioteca para acessar esses dados, por exemplo:

    edac-util -rfull          
    mc0:csrow0:mc#0memory#0:CE:0
    mc0:csrow2:mc#0memory#2:CE:0
    mc0:noinfo:all:UE:0
    mc0:noinfo:all:CE:0
    mc1:noinfo:all:UE:0
    mc1:noinfo:all:CE:0
    

    Você pode configurar algum tipo de trabalho cron que periodicamente chama eac-utile alimenta os resultados em seu sistema de monitoramento, onde você pode configurar algumas notificações.

    Além disso, correr mceloggeralmente é uma boa ideia. Depende do sistema, mas erros ECC incorrigíveis/corrigíveis também são relatados como exceção de verificação de máquina ( MCE ). Quero dizer, mesmo breves períodos de aceleração da CPU devido à temperatura mais alta são relatados como MCE.

    • 11
  2. Michael Hampton
    2014-11-12T07:50:03+08:002014-11-12T07:50:03+08:00

    mcelogirá monitorar o controlador de memória e relatar eventos de erro de memória para o syslog e, em algumas configurações, pode páginas de memória ruins off -line . Isso é, obviamente, além de seu uso usual para monitorar exceções de verificação de máquina e uma variedade de outros erros de hardware.

    A maioria das distribuições Linux possui um serviço configurado para executá-lo como um daemon, por exemplo, para EL 6:

    chkconfig mcelog on
    service mcelog start
    
    • 10
  3. spaceman spiff
    2020-01-05T15:01:56+08:002020-01-05T15:01:56+08:00

    O rasdaemonpacote foi criado como um substituto para edac-tools, e os kernels mais recentes nem mesmo suportam edac-toolsou mcelog.

    Uma atualização para os drivers do kernel Linux EDAC mudou a forma como os contadores de erros de memória eram gerenciados no espaço do usuário, portanto, edac-toolse mcelogestão efetivamente obsoletos.

    • 9
  4. ewwhite
    2014-11-12T07:52:28+08:002014-11-12T07:52:28+08:00

    Isso depende do hardware do seu servidor. Uma caixa branca ou um sistema Supermicro lidará com isso de maneira diferente de um Dell, HP ou IBM...

    Um dos recursos de valor agregado dos servidores de ponta é que há um nível de integração de hardware/SO. Os servidores Nicer informarão o que você está procurando como parte dos agentes de gerenciamento e/ou solução de gerenciamento fora de banda (ILO, DRAC, IPMI).

    Você deve usar as ferramentas nativas da sua plataforma de hardware.

    Trecho de servidores HP ProLiant executando Linux e os agentes de gerenciamento HP:

    Trap-ID=6056
    ECC Memory Correctable Errors  detected.
    

    e

    Trap-ID=6052
    Advanced ECC Memory  Engaged
    

    ou um mais grave

    Trap-ID=6029
    A correctable memory log entry indicates a memory module needs to be
    replaced.
    

    ou o pior... Ignorar um erro por 6 dias até que o servidor trave por causa da RAM ruim

    0004 Repaired       22:21  12/01/2008 22:21  12/01/2008 0001
    LOG: Corrected Memory Error threshold exceeded (Slot 1, Memory Module 1)
    
    0007 Repaired       02:58  12/07/2008 02:58  12/07/2008 0001
    LOG: POST Error: 201-Memory Error Single-bit error occured during 
    memory initialization, 
    Board 1, DIMM 1. Bank containing DIMM(s) has been disabled.
    
    0008 Repaired       19:31  12/08/2009 19:31  12/08/2009 0001
    LOG: ASR Detected by System ROM
    

    Estes foram registrados, além de armadilhas SNMP e e-mails foram enviados.

    Genericamente, você verá exceções de verificação de máquina no buffer de anel do kernel, para que possa verificar dmesgou executar mcelog . Em minhas experiências com equipamento Supermicro sem IPMI, isso não detectou tudo e ainda tive erros de RAM escapando pelas rachaduras e causando interrupções. Infelizmente, isso levou a políticas arcaicas de queima de RAM antes das implantações do sistema.

    • 8
  5. gabriele
    2020-03-13T00:09:14+08:002020-03-13T00:09:14+08:00

    Conforme mencionado por outro pôster mcelog, está obsoleto e efetivamente substituído por rasdaemon. Eu escrevi sobre como instalá-lo e configurá-lo em muitas distribuições Linux, incluindo instruções para configurar corretamente os rótulos DIMM.

    • 6

relate perguntas

  • Como descobrir detalhes sobre hardware na máquina Linux?

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Você pode passar usuário/passar para autenticação básica HTTP em parâmetros de URL?

    • 5 respostas
  • Marko Smith

    Ping uma porta específica

    • 18 respostas
  • Marko Smith

    Verifique se a porta está aberta ou fechada em um servidor Linux?

    • 7 respostas
  • Marko Smith

    Como automatizar o login SSH com senha?

    • 10 respostas
  • Marko Smith

    Como posso dizer ao Git para Windows onde encontrar minha chave RSA privada?

    • 30 respostas
  • Marko Smith

    Qual é o nome de usuário/senha de superusuário padrão para postgres após uma nova instalação?

    • 5 respostas
  • Marko Smith

    Qual porta o SFTP usa?

    • 6 respostas
  • Marko Smith

    Linha de comando para listar usuários em um grupo do Windows Active Directory?

    • 9 respostas
  • Marko Smith

    O que é um arquivo Pem e como ele difere de outros formatos de arquivo de chave gerada pelo OpenSSL?

    • 3 respostas
  • Marko Smith

    Como determinar se uma variável bash está vazia?

    • 15 respostas
  • Martin Hope
    Davie Ping uma porta específica 2009-10-09 01:57:50 +0800 CST
  • Martin Hope
    kernel O scp pode copiar diretórios recursivamente? 2011-04-29 20:24:45 +0800 CST
  • Martin Hope
    Robert ssh retorna "Proprietário incorreto ou permissões em ~/.ssh/config" 2011-03-30 10:15:48 +0800 CST
  • Martin Hope
    Eonil Como automatizar o login SSH com senha? 2011-03-02 03:07:12 +0800 CST
  • Martin Hope
    gunwin Como lidar com um servidor comprometido? 2011-01-03 13:31:27 +0800 CST
  • Martin Hope
    Tom Feiner Como posso classificar a saída du -h por tamanho 2009-02-26 05:42:42 +0800 CST
  • Martin Hope
    Noah Goodrich O que é um arquivo Pem e como ele difere de outros formatos de arquivo de chave gerada pelo OpenSSL? 2009-05-19 18:24:42 +0800 CST
  • Martin Hope
    Brent Como determinar se uma variável bash está vazia? 2009-05-13 09:54:48 +0800 CST

Hot tag

linux nginx windows networking ubuntu domain-name-system amazon-web-services active-directory apache-2.4 ssh

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve