Eu fiz esta pergunta no AskUbuntu , mas tenho perguntas de hardware mais específicas que estou fazendo aqui agora.
Parece que minha RAM estava ruim, já que encontrei cerca de ~ 6.000 erros no Memtest86 + e tive mais de 10 congelamentos e reinicializações forçadas em 1 hora, mas agora que simplesmente desconectei os dois módulos de RAM e os conectei novamente, não posso t obter um único novo erro. Está na garantia, então a Dell está disposta a trocar a placa-mãe inteira e os dois pentes de RAM (8 GB cada), de graça, na próxima semana, mas estou pensando em rejeitar a oferta, mas estou preocupado que meu hardware ainda esteja ruim . Agora que nenhum erro está surgindo, eu me pergunto se isso é apenas mais arriscado do que preciso agora para deixá-los trocar a placa-mãe inteira, especialmente porque eles usarão peças recondicionadas e minha experiência com peças de hardware recondicionadas em geral (não com Dell em tudo - mas apenas em geral) me diz para ficar longe, a menos que eu realmente não tenha escolha.
O que devo fazer? Minha RAM nunca foi ruim? Ou, de alguma forma, foi apenas um problema mecânico de alinhamento de pinos ou detritos que foi resolvido simplesmente desconectando e conectando novamente a RAM?
Observe que meu computador tem 1 ano. É um laptop Dell de última geração. Recentemente, limpei o Windows 10 completamente e instalei o Ubuntu 20.04.
Aqui está minha descrição completa que enviei para a equipe de suporte da Dell, mas eles nunca tiveram um engenheiro olhando minhas descrições, então gostaria de ver se alguém aqui tem conhecimento do que pode ter acontecido e qual é a solução.
[MENSAGEM QUE ENVIEI PARA DELL (INÍCIO)]
Eu fiz algumas soluções de problemas e isso está me deixando perplexo.
Observe que meu sistema operacional é o Linux Ubuntu 20.04.
Nas últimas 2 semanas, experimentei congelamentos ocasionais, mas raramente e geralmente durante a inicialização ou desligamento. Às vezes, durante a inicialização, ele congelava e eu tinha que segurar o botão liga / desliga para tentar novamente. Eu não pensei muito sobre isso, mas ainda estava confuso com isso. 3 dias atrás, experimentei o congelamento total repetido, onde nenhuma forma de reinicialização suave funcionaria, nem mesmo interrompendo o kernel do Linux com uma sequência especial Ctrl + Alt + PrScr + REISUB usada para reinicializar suavemente os computadores Linux. Eu tive que fazer uma reinicialização total total a cada vez. Isso ocorreu de novo e de novo e de novo - cerca de 10 vezes em uma única hora. O sistema estava completamente inutilizável.
Inicializei no menu Dell Diagnostics e executei o diagnóstico duas vezes . Cada vez que eles congelavam na tela de teste de memória por ~ 15 minutos, com algo como 4 minutos e 20 segundos permanecendo congelados na tela, então cada vez eu reiniciei para sair.
Eu então atualizei o BIOS de 1.9 para 1.15.1 naquele momento (3 dias atrás) e o congelamento continuou. Em seguida, habilitei a inicialização herdada no BIOS/UEFI, inicializei no Memtest86+ v5.01 ( https://www.memtest.org/ ) e executei um teste de memória. Ele encontrou milhares de erros em 6 minutos, para um total de 5.632 erros em 2 horas ou mais. Aí eu liguei para você.
Aqui estão as capturas de tela desses erros. Esta captura de tela mostra erros no Teste 10 no endereço 003e295861c, por exemplo:
Esta captura de tela mostra o mapeamento de memória do endereço para o slot DIMM. Como você pode ver, este endereço mapeia para DIMM B, o que significa que a memória está ruim:
Esta captura de tela mostra erros no Teste 7 no endereço 0017dfdf1b8, por exemplo, em apenas 5 minutos e 35 segundos após o início do teste. Isso mapeia para DIMM A, o que significa que a memória está ruim. Portanto, ambas as memórias são ruins:
However, I can no longer reproduce the errors (now that I have swapped the RAM sticks around during further testing). Whether I test the memories individually or together, in DIMM A or in DIMM B, they now pass. Additionally, the Dell Diagnostic test from the boot menu now runs to completion and passes. Does this make any sense!? I went from 10+ freezes per hour and 5632 errors to nothing? I wonder if it's a glitchy motherboard, but all Dell Diagnostics tests which I run from the boot menu also now pass. I need this computer to work and be reliable and not produce memory corruption. What do you think? Thanks!
[MESSAGE I SENT TO DELL (END)]
Also, I have even run a stress test with this command, for 8 hours at 100% CPU usage (all 4 cores/8 hardware threads at 100%), and at ~98% RAM usage the whole time, and it ran fine too:
stress-ng --cpu 8 --vm 8 --vm-bytes 100% --timeout 8h --metrics
And I have now run Memtest86+ for 30+ hours with both RAM sticks reinserted, and I get zero errors.
How do I go from 5632 errors to zero!?
Note: I also ran Memtest86+ v5.01 only in single-threaded mode, so none of my errors were due to its known bugs with running in multi-threaded mode.
Related:
- Related, but definitely inconclusive and not a duplicate: Can the dust cause DDR RAM errors?
- kinda-sorta related--also not a duplicate: ram errors solved by swapping slots used by ram
Future troubleshooting notes to self (Looking back: what I wish I would have done):
- I wish I would have run the Memtest86+ test 2 or 3 more times for < 1 hr each time before unplugging any RAM modules, just to see if I was consistently getting those thousands of failures.
- Then, assuming the errors were consistent, I wish the first thing I would have done to troubleshoot them would have been to just unplug both RAM modules and then plug them exactly back in as they were! Then, run the test again, and if the test passes immediately, after having failed several times in a row just before, I would know with certainty the RAM modules were just improperly seated somehow, and unplugging them and plugging them back in fixed the problem!
References:
- How I first started learning about the
stress-ng
Linux stress test command-line tool: https://www.cyberciti.biz/faq/stress-test-linux-unix-server-with-stress-ng/
Taking the RAM out, put it back in can certainly fix these kind of issues.
(But the problem may come back in a couple of months.)
Basically there are 3 separate issues here:
Taking the RAM out/back in scrapes that layer off and you are good to go until it forms again. Especially computers used in a relatively humid environment can be subject to this, but it usually takes several years before this becomes an issue.
The 3 effects above can appear in combinations and amplify each other. And they can start popping up after a long term using the computer without issues. Even in computers whose internals you never touched yourself since it came out of the factory it can happen.
Testing suspect RAM is tricky, especially if you don't have known good other system available.
Typical thing to do when you suspect a bad RAM is first to take out the RAM.
Visually inspect it for bend contacts: If there are any throw it away immediately. It will never be 100% reliable again.
Then clean the contacts and re-seat the RAM in the same slot. Then re-test.
If it still tests bad you can try a known good RAM in that slot. (Not always possible if the motherboard needs a specific combination of slots to be used.) If that also tests bad the slot itself is usually the culprit.
And you can test with only the suspect RAM in another slot.
In the motherboard/memory controller is the problem any RAM you test in that same slot will appear bad. But be ware when you change the memory layout/configuration (e.g. test with less or different size RAM strips) the problem can move to another slot. It is also possible it is guaranteed unstable in some memory combinations and stable in others (depending on the physical layout of the RAM present).
And always test with RAM timing in the Bios set to standard timing. Overclocked RAM can cause its own issues and make tests unreliable.
If you have another computer that is known to be good it is probably easiest to run that second computer with just 1 RAM from the problem system. Test all RAMs one by one. And then test the motherboard on the flaky computer by running it with RAM that has checked out the be good in the previous tests.
A few words on cleaning the contacts:
Don't try to clean the slots on the motherboard. Very easy to damage them.
The friction of a RAM strip being taking out/inserted is enough to scrape the contacts clean.
On the RAM strips themselves:
Gently rub them with a pencil eraser in the correct direction. (When you hold the RAM horizontally with the contacts pointing down you rub it from top to bottom. So along the contact in the direction of where the slot would be if it was inserted in a slot.)
Do both sides and try to avoid touching the contacts with your fingers.
Se você tocou neles (ou apenas para garantir), passe um cotonete / cotonete em álcool isopropílico (disponível em qualquer farmácia) e passe-o sobre os contatos. Continue repetindo até não ver mais nenhuma mancha escura no cotonete.