Em um Orange Pi Zero executando um servidor Raspbian, é possível usar o watchdog com muita facilidade apenas executando o comando echo 1 > /dev/watchdog
como root. A ideia é que o sistema certamente irá reiniciar após algum tempo que este comando for executado, então eu preciso ficar repetindo este comando em um intervalo de tempo regular para manter o sistema ligado. Podemos implementar um watchdog usando cron
como root e fazendo com que ele execute o seguinte script na inicialização:
#!/bin/bash
while [ true ]; do
echo 1 > /dev/watchdog
sleep 5
done
Este script funciona bem no Orange Pi Zero... No entanto, no meu computador desktop executando o Ubuntu 18.04, o comando echo 1 > /dev/watchdog
não funciona. É possível ativar o watchdog em qualquer dispositivo com Linux?
Existem dois tipos de cão de guarda; hardware e software. No Orange Pi, o chip SOC fornece um watchdog de hardware. Se inicializado, ele precisa ser pingado de vez em quando, caso contrário, ele executa uma reinicialização da placa.
No entanto, poucos desktops têm watchdogs de hardware, então o kernel fornece uma versão de software. Agora o kernel tentará acompanhar e forçar uma reinicialização. Isso não é tão bom quanto um watchdog de hardware porque se o próprio kernel quebrar, nada acionará a reinicialização. Mas funciona.
O watchdog do software pode ser inicializado carregando o
softdog
móduloPodemos ver que isso tem um tempo limite de 60 segundos por padrão.
Se eu então faço
Podemos ver que o cão de guarda não expirou.
Eu então deixo a máquina ociosa por um minuto e no console eu vejo
e o sistema operacional é reiniciado.
Em um sistema operacional Linux moderno que usa o systemd, você pode configurar o systemd para interagir com o watchdog de hardware em seu nome, em vez de fazer isso sozinho ou usar um daemon de espaço de usuário separado.
Você pode fazer isso definindo um
RuntimeWatchdogSec
valor (positivo) no arquivo de configuração do systemd,/etc/systemd/system.conf
.O redirecionamento de E/S fecha o identificador de arquivo watchdog após escrever o arquivo
1
. Dependendo de como o dispositivo watchdog está configurado, fechar o identificador de arquivo também pode desabilitar o watchdog.Tentar
Isso manterá o dispositivo watchdog aberto no shell atual, para que o cronômetro não seja interrompido.
A maioria das pessoas executa um daemon watchdog dedicado em vez de usar o cron; esse daemon executa uma lista de verificações antes de redefinir o cronômetro, portanto, a máquina também reinicializa se os testes falharem. Isso pode ser usado para verificar se um serviço de banco de dados realmente processa consultas, enquanto o monitoramento regular de serviço verificaria apenas se o processo está em execução.
Depende do hardware. Com kernel Linux moderno o suficiente e CPU intel, você poderá fazer o seguinte se executar o Ubuntu ou alguma outra variante do Debian:
sudo apt install watchdog
sudo nano -w /etc/default/watchdog
e defina o módulo correto, comowatchdog_module="iTCO_wdt"
(observe que o nome correto do driver depende do seu hardware, mas isso deve ser bom o suficiente para CPUs Intel fabricadas nos últimos 10 anos). Quando o serviço watchdog for iniciado, ele carregará este módulo do kernel que fará com que o/dev/watchdog
dispositivo apareça no sistema.sudo nano -w /etc/watchdog.conf
descomente a linhawatchdog-device = /dev/watchdog
ou apenas adicione essa linha como linha extra a esse arquivo. O resultado final deve corresponder a este:sudo systemctl enable --now watchdog
Todos os módulos de driver watchdog possíveis podem ser listados com o comando
e se você não tem idéia de qual usar, você pode tentar testá-los um por um. Por exemplo, para testar o driver,
sp5100_tco.ko
basta executarsudo modprobe sp5100_tco
e depois executarsudo wd_identify
para saber se o seu hardware é suportado por esse driver. Se não funcionar, remova o driversudo modprobe -r sp5100_tco
e tente novamente com outro. Observe quewd_identify
não pode ser usado se o processo de watchdog já estiver conectado ao hardware, então você não pode usá-lo após habilitar o watchdog.Para testar o hardware do watchdog, você pode causar uma falha artificial simplesmente abrindo o dispositivo e nunca gravando nada nele. Por exemplo, antes de habilitar o
watchdog
serviço na última etapa, você pode simplesmente executarsudo cat /dev/watchdog
e o sistema será redefinido automaticamente em cerca de 60 segundos. Isso funciona porque o driver watchdog funciona iniciando o cronômetro do watchdog quando o arquivo é aberto e a única maneira de redefinir o cronômetro é escrever algo no dispositivo do driver. Fechar o arquivo também irá parar o cronômetro em vez de causar uma reinicialização (a menos que seu kernel tenha sido compilado com sinalizadores não padrão que causam redefinição mesmo se ninguém mais estiver usando o dispositivo watchdog depois de ter sido usado após a inicialização). Quando você executacat
o arquivo de driver, o arquivo será aberto e ocat
o processo irá parar tentando ler o arquivo e a reinicialização do hardware será feita quando o cronômetro expirar (que deve ser de 60 segundos por padrão). É uma boa ideia salvar todo o trabalho e sincronizar o sistema de arquivos antes de tentar isso!Para obter detalhes sobre o driver watchdog do kernel, consulte a documentação oficial do kernel .