Cerca de 1 mês atrás, realizei uma atualização no meu sistema de 22.04 para 24.04. Antes dessa atualização, o sistema estava muito estável, sem problemas. Logo após a atualização, o sistema começou a se reinicializar intermitentemente. (ou seja, o Ubuntu está rodando e não rodando nada ou efetivamente nada e então estou vendo a tela do BIOS).
Depois de pesquisar, encontrei pessoas que disseram "Faça uma instalação nova". Fiz backup do meu /home/user e /etc e reinstalei o 24.04 recentemente. Após a reinstalação, peguei apenas minha antiga conf do samba do /etc e peguei meus arquivos de usuário do /home/user e comecei novamente a configurar e usar minha máquina Ubuntu recém-instalada. Para minha surpresa, ela reiniciava intermitentemente em mim. Muitas vezes a máquina fica parada e reinicia.
Fiquei perplexo com isso porque está se comportando como se houvesse um problema de hardware, mas não houve nenhuma alteração de hardware antes e depois da atualização. A máquina tem um bom fluxo de ar e não há razão para suspeitar que esteja ocorrendo superaquecimento. Muitas/na maioria das vezes, ela está simplesmente em marcha lenta quando reinicia.
Minhas tentativas de resolver ou isolar o problema até agora incluem (não necessariamente em ordem de sequência):
- Atualizando o BIOS para a versão mais recente disponível. (MB é ASUS ROG STRIX B550-F (wifi))
- Memtest86 completo. Levou 2 horas e 28 minutos para testar completamente 128 GB, executando SMP. Imaginei que SMP era bom porque testaria múltiplos núcleos no processador. Nenhuma falha.
- Teste de queima de CPU onde carreguei minha CPU (AMD Ryzen 5 5600X) por um tempo. Nenhuma falha.
- Verifiquei os drivers gráficos mais recentes para a placa de vídeo (AMD Radeon RX 580)
- Realizou um teste de GPU usando Unigine Valley. Nenhuma falha.
- Recursos de Wi-Fi e Bluetooth desabilitados na placa-mãe. Reinicialização descontrolada ainda ocorria
- Troquei a fonte de alimentação por uma nova. Reinicialização descontrolada ainda ocorreu.
- Habilitei o registro de depuração do kernel (acho) adicionando:
kernel.printk = 7 7 1 7
a /etc/sysctl.conf e então verifiquei se isso estava habilitado usandocat /proc/sys/kernel/printk
Não consegui isolar nada consistentemente acontecendo nos logs. Por exemplo, se eu pegar a saída de last reboot
e olhar os recentes:
reboot system boot 6.8.0-48-generic Wed Nov 20 16:01 still running
reboot system boot 6.8.0-48-generic Wed Nov 20 15:43 still running
reboot system boot 6.8.0-48-generic Wed Nov 20 15:25 - 15:43 (00:17)
reboot system boot 6.8.0-48-generic Wed Nov 20 14:49 - 15:43 (00:53)
reboot system boot 6.8.0-48-generic Wed Nov 20 14:40 - 14:48 (00:08)
reboot system boot 6.8.0-48-generic Wed Nov 20 13:23 - 14:48 (01:24)
reboot system boot 6.8.0-48-generic Wed Nov 20 12:19 - 14:48 (02:28)
reboot system boot 6.8.0-48-generic Wed Nov 20 11:36 - 14:48 (03:12)
Esses tempos representam o sistema reiniciado. Normalmente ele diz "ainda em execução" quando falha e reinicia, mas então há algum tipo de limpeza. Quase todos os acima representam reinicializações descontroladas, com exceção de talvez 2, onde eu estava ajustando a configuração e queria ter certeza de que estava ativo.
Se eu for /var/log/kern.log
e procurar para trás por "versão Linux" (primeiro log de uma reinicialização), posso ver os logs que ocorreram logo antes da reinicialização. Não parece haver consistentemente a mesma causa. Por exemplo, aqui está 16:01.
2024-11-20T15:44:48.904343-07:00 svr kernel: audit: type=1400 audit(1732142688.903:192): apparmor="DENIED" operation="capable" class="cap" profile="/usr/lib/snapd/snap-confine" pid=4428 comm="snap-confine" capability=38 capname="perfmon"
2024-11-20T16:01:55.246557-07:00 svr kernel: Linux version 6.8.0-48-generic (buildd@lcy02-amd64-010) (x86_64-linux-gnu-gcc-13 (Ubuntu 13.2.0-23ubuntu4) 13.2.0, GNU ld (GNU Binutils for Ubuntu) 2.42) #48-Ubuntu SMP PREEMPT_DYNAMIC Fri Sep 27 14:04:52 UTC 2024 (Ubuntu 6.8.0-48.48-generic 6.8.12)
e tem 15:43
2024-11-20T15:43:09.543269-07:00 svr kernel: exe="/usr/bin/dbus-daemon" sauid=101 hostname=? addr=? terminal=?'
2024-11-20T15:43:35.769171-07:00 svr kernel: Linux version 6.8.0-48-generic (buildd@lcy02-amd64-010) (x86_64-linux-gnu-gcc-13 (Ubuntu 13.2.0-23ubuntu4) 13.2.0, GNU ld (GNU Binutils for Ubuntu) 2.42) #48-Ubuntu SMP PREEMPT_DYNAMIC Fri Sep 27 14:04:52 UTC 2024 (Ubuntu 6.8.0-48.48-generic 6.8.12)
Note primeiro que há uma lacuna de log significativa entre os logs. Por exemplo, 16:01 houve uma lacuna de 15 minutos entre o último log do kernel e a reinicialização. Enquanto foi mais próximo de 20 segundos de silêncio na reinicialização 15:43. Eu vi outras reinicializações onde havia lixo binário nos logs antes da reinicialização, por exemplo esta:
2024-11-19T11:00:56.597426-07:00 svr kernel: exe="/usr/bin/dbus-daemon" sauid=101 hostname=? addr=? terminal=?'
^@^@^@[many ^@ snipped]^@2024-11-19T11:03:04.550077-07:00 svr kernel: Linux version 6.8.0-48-generic (buildd@lcy02-amd64-010) (x86_64-linux-gnu-gcc-13 (Ubuntu 13.2.0-23ubuntu4) 13.2.0, GNU ld (GNU Binutils for Ubuntu) 2.42) #48-Ubuntu SMP PREEMPT_DYNAMIC Fri Sep 27 14:04:52 UTC 2024 (Ubuntu 6.8.0-48.48-generic 6.8.12)
2024-11-19T11:03:04.550299-07:00 svr kernel: Command line: BOOT_IMAGE=/boot/vmlinuz-6.8.0-48-generic root=UUID=60c9acc4-90f4-4d74-acdc-ad21be5bbc15 ro quiet splash vt.handoff=7
Estou perdido quanto ao que pode estar acontecendo. Esta máquina tem sido maravilhosa e estável por vários anos no 22.04. E então, imediatamente após instalar o 24.04, ela começou a reiniciar aleatoriamente. Entre essas reinicializações aleatórias, ela funciona muito bem. :(
Se alguém pudesse me dizer "habilitar esta configuração" e olhar este log para que pudéssemos descobrir qual é a causa da redefinição, eu adoraria!!!
Um dado confessional (aquele material que só aparece no final de longas sessões de solução de problemas):
Meu filho costumava ter a mobo/proc em sua máquina executando o Windows e eu tinha outro hardware na minha máquina. Algo aconteceu e o Windows dele travou -- feio. Eu não consegui consertar usando meios USB comuns do Windows, então eu zerei completamente o disco rígido dele inicializando de um Ubuntu USB usando dd de /dev/zero para sua unidade. Eu tentei muitas vezes e de muitas maneiras reinstalar o Windows 10, mas não funcionou, embora fosse efetivamente um sistema novo.
Minha conclusão final foi que eu pegaria essa mobo/proc e trocaria pela que eu tinha na minha máquina. Funcionou muito bem, até eu instalar o Ubuntu 24.04.
Dada a natureza maluca desse problema, minha melhor especulação é: Alguma falha sutil de hardware aconteceu na placa-mãe em um lugar que o Windows não conseguiu executar ou instalar. O Ubuntu 22.04 rodou e funcionou muito bem porque talvez ele não usasse aquele pedaço de hardware??? E então alguma mudança no kernel/software do Ubuntu 24.04 agora usa aquele hardware e agora está tudo bem? É estranho que eu tenha tido tanto sucesso no 22.04 por tanto tempo.
Tenho outros dois filhos, um rodando Windows 10 e outro rodando Ubuntu 24.04 nessa combinação exata de placa-mãe e processador. Sem problemas.
Já que não é a fonte de alimentação, talvez haja algo suspeito em algum componente da placa-mãe e eu deva chorar bastante e pagar uma nova?
ATUALIZAR
UGH!! Depois de substituir a placa-mãe, ainda estou tendo reinicializações descontroladas!
reboot system boot 6.8.0-49-generic Fri Nov 22 11:06 still running
reboot system boot 6.8.0-49-generic Fri Nov 22 03:30 still running
reboot system boot 6.8.0-49-generic Fri Nov 22 09:21 - 09:27 (00:05)
reboot system boot 6.8.0-48-generic Wed Nov 20 18:12 - 09:21 (1+15:08)
O que está acontecendo??? Nova fonte de alimentação, nova placa-mãe. CPU testada, memória testada.
A reinicialização aconteceu novamente enquanto o sistema estava efetivamente ocioso -- eu tinha ido embora.
ATUALIZAÇÃO 2
Trocar o filtro de linha/protetor contra surtos não fez diferença. Estou recorrendo à eliminação de qualquer coisa desnecessária para ver se faz diferença.
Desconectei um cabo HDMI conectado a uma TV 4K que agia como um segundo monitor. Eu tinha conectado na minha placa de vídeo um monitor 4K conectado via DisplayPort e uma TV 4K conectada via HDMI. Ele está ligado há quase 2 horas desde que o desconectei. Vou deixar a máquina funcionando durante a noite com aplicativos simples. Se ele ainda estiver ligado de manhã, vou me sentir tolo, mas ficarei feliz em ter resolvido. Um cabo HDMI ruim faria isso? É ruim conectar um computador a uma TV 4K?
Resolução
A máquina ficou ligada a noite toda sem aquele cabo HDMI conectado à TV. A melhor explicação que posso imaginar é que talvez eu tenha sutilmente sacudido e danificado o cabo na mesma época da atualização 24.04. Gostaria de ter pensado em testar isso primeiro. A sugestão de @david de verificar se isso ainda acontece em 22.04 provavelmente teria sido um bom diagnóstico para eliminar suposições analíticas, mas eu não queria gastar o esforço na hora. Espero que todos possam ser mais sábios do que eu. :) Obrigado a todos que investiram energia ou interesse.