AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / server / Perguntas / 938385
Accepted
digijay
digijay
Asked: 2018-11-03 06:29:29 +0800 CST2018-11-03 06:29:29 +0800 CST 2018-11-03 06:29:29 +0800 CST

Nagios/Icinga: Não mostre CRITICAL para partições DRBD no nó de espera

  • 772

Configurei um ha-cluster pacemaker/corosync em uma configuração de failover com dois nós: produtivo e em espera. Existem três partições DRBD. Tudo funciona bem até agora.

Estou usando o Nagios NRPE em ambos os nós para monitorar o servidor com icinga2 como ferramenta de relatório e visualização. Agora, como as partições DRBD no nó de espera não são montadas até que haja um switch de failover, sempre recebo avisos críticos para estes:

saída de monitoramento icnga2

Portanto, este é um alerta falso. Eu já me deparei com DISABLE_SVC_CHECK e tentei implementá-lo, aqui está um exemplo:

echo "[`date +%s`] DISABLE_SVC_CHECK;$host_name;$service_name" >> "/var/run/icinga2/cmd/icinga2.cmd"

Não existe uma maneira fácil/prática recomendada para desabilitar essa verificação para DRBD no nó de espera no Nagios ou no Icinga2? É claro que quero que essa verificação entre em vigor para o modo de espera após um failover.

nagios
  • 3 3 respostas
  • 608 Views

3 respostas

  • Voted
  1. Best Answer
    Dok
    2018-11-03T07:32:23+08:002018-11-03T07:32:23+08:00

    Eu aconselharia não monitorar isso diretamente no host. Em nosso ambiente, utilizamos o Pacemaker para automatizar failovers. Uma das coisas que o Pacemaker faz por nós é mover um endereço IP no failover. Isso garante que nossos clientes estejam sempre apontando para o primário e ajuda a tornar os failovers transparentes do lado do cliente.

    Para o Nagios, monitoramos uma série de serviços em cada host para ficar de olho nas coisas, mas temos um "host" adicional configurado para o endereço IP virtual/flutuante para monitorar os dispositivos e serviços DRBD que estão sendo executados apenas no primário.

    • 2
  2. Robert Dedieu
    2018-11-06T08:47:09+08:002018-11-06T08:47:09+08:00

    No meu ambiente, gerenciamos vários serviços executados em cima de dispositivos drbd (tradicional, contêineres lxc, contêineres docker, bancos de dados, ...). Usamos a pilha opensvc ( https://www.opensvc.com ), que é gratuita e de código aberto, e fornece recursos de failover automático. Abaixo está um serviço de teste com drbd e um aplicativo redis (desativado no exemplo)

    Primeiro no nível do cluster, podemos ver na svcmonsaída que:

    • cluster opensvc de 2 nós (node-1-1 e node-1-2)
    • o serviço servdrbd está ativo (O verde maiúsculo) no nó 1-1 e em espera (o verde minúsculo) no nó 1-2
    • node-1-1 é o nó mestre preferencial para este serviço (acento circunflexo próximo ao O maiúsculo)

    No nível de serviço svcmgr -s servdrbd print status, podemos ver:

    • no nó primário (à esquerda): podemos ver que todos os recursos estão ativos (ou em espera, o que significa que eles devem permanecer ativos quando o serviço estiver sendo executado no outro nó). E em relação ao dispositivo drbd, ele é relatado como Primário
    • no nó secundário (à direita): podemos ver que apenas os recursos de espera estão ativos e o dispositivo drbd está no estado Secundário .

    Para simular um problema, desconectei o dispositivo drbd no nó secundário e isso produz os seguintes avisos

    É importante ver que o status de disponibilidade do serviço ainda está ativo , mas o status geral do serviço está degradado para avisar , o que significa "ok, a produção ainda está funcionando bem, mas algo dá errado, dê uma olhada"

    Assim que você estiver ciente de que todos os comandos opensvc podem ser usados ​​com o seletor de saída json ( nodemgr daemon status --format jsonou svcmgr -s servdrbd print status --format json), é fácil conectá-lo a um script NRPE e apenas monitorar os estados do serviço. E como você viu, qualquer problema no primário ou secundário está preso.

    O nodemgr daemon statusé melhor porque é a mesma saída em todos os nós do cluster e todas as informações dos serviços opensvc são exibidas em uma única chamada de comando.

    Se você estiver interessado no arquivo de configuração do serviço para esta configuração, postei no pastebin aqui

    • 2
  3. Keith
    2018-11-06T12:44:16+08:002018-11-06T12:44:16+08:00

    Você pode usar check_multi para executar ambas as verificações do DRBD como uma única verificação do Nagios e configurá-lo para retornar OK se exatamente uma das subverificações estiver OK.

    No entanto, fica complicado quando você precisa decidir qual host anexar o cheque também. Você pode anexá-lo a um host usando o VIP ou anexar a verificação a ambos os hosts e usar NRPE/ssh em cada um para verificar o outro, etc.

    • 1

relate perguntas

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Você pode passar usuário/passar para autenticação básica HTTP em parâmetros de URL?

    • 5 respostas
  • Marko Smith

    Ping uma porta específica

    • 18 respostas
  • Marko Smith

    Verifique se a porta está aberta ou fechada em um servidor Linux?

    • 7 respostas
  • Marko Smith

    Como automatizar o login SSH com senha?

    • 10 respostas
  • Marko Smith

    Como posso dizer ao Git para Windows onde encontrar minha chave RSA privada?

    • 30 respostas
  • Marko Smith

    Qual é o nome de usuário/senha de superusuário padrão para postgres após uma nova instalação?

    • 5 respostas
  • Marko Smith

    Qual porta o SFTP usa?

    • 6 respostas
  • Marko Smith

    Linha de comando para listar usuários em um grupo do Windows Active Directory?

    • 9 respostas
  • Marko Smith

    O que é um arquivo Pem e como ele difere de outros formatos de arquivo de chave gerada pelo OpenSSL?

    • 3 respostas
  • Marko Smith

    Como determinar se uma variável bash está vazia?

    • 15 respostas
  • Martin Hope
    Davie Ping uma porta específica 2009-10-09 01:57:50 +0800 CST
  • Martin Hope
    kernel O scp pode copiar diretórios recursivamente? 2011-04-29 20:24:45 +0800 CST
  • Martin Hope
    Robert ssh retorna "Proprietário incorreto ou permissões em ~/.ssh/config" 2011-03-30 10:15:48 +0800 CST
  • Martin Hope
    Eonil Como automatizar o login SSH com senha? 2011-03-02 03:07:12 +0800 CST
  • Martin Hope
    gunwin Como lidar com um servidor comprometido? 2011-01-03 13:31:27 +0800 CST
  • Martin Hope
    Tom Feiner Como posso classificar a saída du -h por tamanho 2009-02-26 05:42:42 +0800 CST
  • Martin Hope
    Noah Goodrich O que é um arquivo Pem e como ele difere de outros formatos de arquivo de chave gerada pelo OpenSSL? 2009-05-19 18:24:42 +0800 CST
  • Martin Hope
    Brent Como determinar se uma variável bash está vazia? 2009-05-13 09:54:48 +0800 CST

Hot tag

linux nginx windows networking ubuntu domain-name-system amazon-web-services active-directory apache-2.4 ssh

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve