Estou executando o cluster Galera de 3 nós usando MariaDB-server-10.3.13-1.el7.centos.x86_64
e vendo periodicamente os seguintes erros nos logs. Eu fiz o google sobre esse erro, mas não encontrei nenhuma boa resposta. Alguém sabe o que esse erro está tentando dizer?
Verifiquei a rede e a perda de pacotes e não encontrei nada relacionado a problemas de rede.
[root@ostack-infra-2-1-galera-container-56895f1b ~]# tail -f /var/log/mysql_logs/galera_server_error.log
2021-11-20 22:07:28 0 [Note] WSREP: Service thread queue flushed.
2021-11-20 22:07:28 24 [Note] WSREP: Synchronized with group, ready for connections
2021-11-20 22:07:28 24 [Note] WSREP: wsrep_notify_cmd is not defined, skipping notification.
2021-11-20 22:07:29 0 [Note] WSREP: Trying to continue unpaused monitor
2021-11-20 22:07:29 0 [Note] WSREP: Trying to continue unpaused monitor
2021-11-21 0:07:10 0 [Note] WSREP: (e951c46a, 'tcp://0.0.0.0:4567') connection to peer 4b57a7fb with addr tcp://172.28.15.69:4567 timed out, no messages seen in PT3S
2021-11-21 0:07:10 0 [Note] WSREP: (e951c46a, 'tcp://0.0.0.0:4567') turning message relay requesting on, nonlive peers: tcp://172.28.15.69:4567
2021-11-21 0:07:11 0 [Note] WSREP: (e951c46a, 'tcp://0.0.0.0:4567') reconnecting to 4b57a7fb (tcp://172.28.15.69:4567), attempt 0
2021-11-21 0:07:11 0 [Note] WSREP: (e951c46a, 'tcp://0.0.0.0:4567') connection established to 4b57a7fb tcp://172.28.15.69:4567
2021-11-21 0:07:15 0 [Note] WSREP: (e951c46a, 'tcp://0.0.0.0:4567') turning message relay requesting off
Em primeiro lugar, isso não é um erro, apenas uma "nota". Se fosse um erro real, diria 'erro'.
O significado da mensagem: Uma tentativa de conexão deste host a um dos outros dois hosts no cluster expirou - e o tempo limite é definido como 3 segundos.
No entanto, de acordo com as mensagens subsequentes, ele tentou se conectar novamente e, felizmente, desta vez conseguiu.
Consulte esta página para obter a documentação sobre o tempo limite.
Acho que esse é o tipo de coisa que acontece em uma rede de vez em quando. É por isso que temos essas configurações de tempo limite. Contanto que a reconexão seja bem-sucedida, não acho que você precise se preocupar muito.
Para obter uma explicação sobre o que pode acontecer se a reconexão falhar, consulte esta postagem no blog de banco de dados de VariousNine sobre particionamento de rede.