Isto é com um ambiente distribuído Icinga 1.
Eu tenho cerca de 100 hosts em um cliente/satélite Icinga 1 que estão presos com o status UNREACHABLE. Todas as quatro verificações para cada host estão retornando o estado OK, mas o estado geral do dispositivo é UNREACHABLE.
O problema pode ter sido causado por eu deixar o Icinga 1 rodando com as permissões erradas para /usr/lib64/nagios/plugins/check_icmp. (check_icmp não tinha o bit suid definido.)
Então eu parei Icinga e esvaziei o arquivo de retenção de estado (state_retention_file=/var/spool/icinga/retention.dat) no satélite e isso não ajudou. Se eu esvaziar esse mesmo arquivo no mestre, isso pode ajudar?
ps mostra meus scripts submit_check_result.sh submit_host_check.sh rodando como zumbis, mas eles não duram muito.
Eu tive que restaurar meus scripts de encaminhamento de cheques no cliente.
Aqui estão os pedaços quebrados.
E aqui está o que parece ter resolvido o problema.
cat /etc/icinga/scripts/submit_check_result.sh
cat /etc/icinga/scripts/submit_host_check.sh