Tenho um PC personalizado (montado com componentes individuais, embora não por mim). As especificações de hardware são as seguintes:
- CPU : AMD Ryzen 5 1600
- RAM : 16 GB DDR4 (2x8 GB) / 2400 MHz
- GPU : NVIDIA GeForce RTX 2060
- SSD : Toshiba TR200 240 GB
- HDD : Seagate 1 TB
O sistema trava com frequência e aleatoriamente, às vezes durante jogos, às vezes apenas navegando no Google e até mesmo ao copiar arquivos de um local para outro.
Analisei os despejos de memória do Windows usando o WinDbg, e a maioria deles aponta para problemas relacionados à GPU NVIDIA ou seus drivers. No entanto, alguns também indicam possíveis problemas com o SSD. Para descartar problemas relacionados ao disco, executei o CrystalDiskInfo, e tanto o SSD quanto o HDD parecem estar em boas condições.
Para investigar mais a fundo, tentei inicializar várias distribuições Linux Live a partir de um pendrive, mas todas elas também travaram, resultando em um kernel panic. Os módulos afetados listados nas falhas variam e incluem drivers NVIDIA, drivers de som, drivers de Wi-Fi, etc. As falhas no Linux ocorreram mesmo ao executar tarefas simples, como copiar arquivos ou simplesmente abrir o terminal sem executar nenhum comando.
O Linux frequentemente relata erros como "Linux watchdog bug: soft lockup CPU# stuck for X seconds" e, após cada falha, ele faz referência à placa-mãe e sua versão: Micro-Star International M5-7A38 B450M PRO-VDH MAX, datada de 07/11/2019.
O PC não superaquece e os travamentos persistem mesmo ao inicializar em ambientes Linux live com modos de segurança. Notavelmente, o sistema não desliga nem reinicia abruptamente — ele simplesmente trava, exibindo um kernel panic (no Linux) ou uma tela azul (no Windows).
Como próximo passo, pretendo atualizar o BIOS, desconectar o SSD e o HDD e instalar um novo SSD NVMe com uma nova instalação do Windows 11. Infelizmente, não posso remover a GPU NVIDIA, pois o sistema não possui gráficos integrados. Além disso, não tenho certeza do que mais testar, pois as falhas parecem não estar relacionadas, sem um padrão claro.
Você tem alguma ideia do que pode estar causando o problema? Que medidas adicionais de solução de problemas você recomendaria?
Atualização : Muitas pessoas sugerem que o problema pode estar relacionado à RAM. Executei o MemTest86+, mas nenhum erro foi detectado. Estou executando-o mais vezes para ter certeza. Além disso, inicializei um ambiente Linux Live mais recente (Kubuntu 24.04) em comparação com os dois anteriores que testei e não experimentei nenhuma falha. No entanto, como as falhas são completamente aleatórias, isso pode ser apenas uma coincidência. Para ter certeza, usei o sistema normalmente, executando várias tarefas, e ele não travou.
Pretendo testar uma placa de vídeo diferente e atualizar a BIOS. Infelizmente, não consigo testar outra CPU ou fonte. Na BIOS, todas as configurações de overclock, incluindo ajustes de tempo, estão definidas como padrão. Não parece haver nenhum overclock ativo.
ATUALIZAÇÃO FINAL: O problema era a RAM, como muitas pessoas relataram aqui. Executei o memtest86+ e ele me mostrou mais de 25 mil erros. Depois de alguns testes, consegui detectar qual slot estava causando problemas e substituí-lo. Depois disso, tive outro problema não relacionado com a BIOS, então não consegui terminar todos os testes e dizer se era a resposta correta, mas finalmente está funcionando. Muito obrigado.
Travamentos aleatórios que ocorrem em locais aparentemente não relacionados são quase sempre relacionados à memória. E, surpreendentemente, a memória se deteriora com o tempo. A primeira coisa que eu faria nesse caso seria substituir sua memória por uma nova; 16 GB de DDR4 é um teste relativamente barato.
Mas, como o Dr. Moishe Pippik apontou em seu comentário, se sua máquina foi construída por um gamer, ela pode facilmente sofrer overclock, então uma boa ideia seria verificar as páginas do BIOS/UEFI para verificar a velocidade da CPU e os tempos de memória, e ver se houve overclock. Existe um miniaplicativo no Painel de Controle da nVidia, que geralmente pode ser acessado com um clique com o botão direito do mouse na tela, que informa se a GPU ou a memória de vídeo também estão sendo overclockadas.
Em ambos os lugares, se você tiver uma opção para "velocidade ideal", essa seria a opção a ser selecionada.
Isso não pretende ser uma panaceia, mas seu problema ressoa muito com um que eu tive anteriormente: o Proxmox não inicializa após a troca da CPU
Nessa pergunta, eu troquei a CPU porque estava enfrentando travamentos de sistema semelhantes aos seus, e a nova CPU não inicializava. No fim das contas, a placa-mãe estava com defeito.
Você deve garantir que tentou todas as etapas de solução de problemas:
Essas etapas devem permitir que você descubra exatamente qual componente é o culpado, identificando o elemento comum entre falhas e falhas. No meu caso, a placa-mãe estava com defeito, o que não estava no meu cartão de bingo, pois eu considerava placas-mãe apenas componentes "burros".
Você está tentando confiar exclusivamente no software para diagnosticar um problema de hardware.
É necessário um diagnóstico físico.
Execute cada etapa individualmente. Por exemplo, não troque a RAM e recoloque a GPU ao mesmo tempo, pois, se o problema desaparecer, qual ação será considerada a culpada? Após executar as etapas da RAM, retorne-as à configuração original antes de prosseguir para as etapas da GPU.
Observe que, depois de executar um único ponto, você deve tentar reproduzir o problema usando o computador.
BATER:
GPU:
As GPUs nem sempre têm sensores de temperatura em todos os seus componentes, então, se elas estiverem realmente superaquecendo, você não terá ideia.
CPU:
SSD:
Fonte de alimentação:
Placa-mãe:
Talvez seja só eu, mas já descobri que travamentos aparentemente aleatórios como os que você descreveu são quase sempre causados pelo superaquecimento da minha placa de vídeo. O fato de os logs apontarem para o seu hardware de vídeo me deixa duplamente desconfiado. Então, estou curioso para saber como você sabe que "o PC não está superaquecendo"?
Uma sugestão que eu daria é abrir o gabinete e ligar o PC por um tempo. Faça uma inspeção visual periódica de todas as ventoinhas. Em um caso, descobri que uma das ventoinhas da minha placa de vídeo estava travando e não girava. A troca da ventoinha resolveu em grande parte o problema.
Alguns indícios de que a placa de vídeo pode estar com problemas de aquecimento são:
Claro que uma verificação fácil seria simplesmente instalar uma placa de vídeo diferente e ver se o problema desaparece. Mas essas coisas são muito caras, então, se você não estiver montando seus próprios PCs, provavelmente não tem peças de reposição por aí.