ras-mc-ctl --errors
está relatando resultados como:
661 2019-08-20 08:42:29 -0400 erro: filtragem corrigida (alguns erros não relatados na mesma região) Generic CACHE Level-3 Generic Error, mcg mcgstatus=0, mci Corrected_error Status de erro baseado em limite: amarelo, mcgcap=0x00000c09 , status=0x8c400c400001110b, addr=0x3334c0000080b06, misc=0x00b501c0, tsc=0x3c6571e2bbea4, walltime=0x5d5beab4, cpuid=0x000806e9, bank=0x00000008
e com mais frequência:
728 2019-08-31 13:35:59 -0400 erro: filtragem corrigida (alguns erros não relatados na mesma região) Generic CACHE Level-3 Generic Error, mcg mcgstatus=0, mci Corrected_error Status de erro baseado em limite: verde, grande número de erros de cache corrigidos. Sistema operacional, mas pode levar a erros não corrigidos em breve, mcgcap=0x00000c09, status=0x8c2000c00001110b, addr=0x2b6b100000374cf, misc=0x0001bdc0, tsc=0x376c4b0d8828, walltime=0x5d6aafff, cpuid=0x080
O que essas mensagens realmente significam e o que se pode/deve fazer a respeito delas?
Informação adicional:
- Este é um Intel NUC 7i7BNH, com 16 Gb de memória, SSD 500G e monitor 4K.
- Ele roda o Ubuntu 18.0, com recente "apt upgrade".
- O BIOS foi atualizado para a versão de julho recente.
- Não fiz nenhuma modificação de hardware.
lshw -C memory
mostra:
*-firmware
description: BIOS
vendor: Intel Corp.
physical id: 0
version: BNKBL357.86A.0080.2019.0725.1139
date: 07/25/2019
size: 64KiB
capacity: 8128KiB
capabilities: pci upgrade shadowing cdboot bootselect socketedrom edd int13floppy1200 int13floppy720 int13floppy2880 int5printscreen int14serial int17printer acpi usb biosbootspecification uefi
*-memory
description: System Memory
physical id: 28
slot: System board or motherboard
size: 16GiB
*-bank:0
description: SODIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 MHz (0.5 ns)
product: CMSO16GX4M1A2133C15
vendor: AMI
physical id: 0
serial: 00000000
slot: ChannelA-DIMM0
size: 16GiB
width: 64 bits
clock: 2133MHz (0.5ns)
*-bank:1
description: [empty]
physical id: 1
slot: ChannelB-DIMM0
*-cache:0
description: L1 cache
physical id: 2d
slot: L1 Cache
size: 128KiB
capacity: 128KiB
capabilities: synchronous internal write-back unified
configuration: level=1
*-cache:1
description: L2 cache
physical id: 2e
slot: L2 Cache
size: 512KiB
capacity: 512KiB
capabilities: synchronous internal write-back unified
configuration: level=2
*-cache:2
description: L3 cache
physical id: 2f
slot: L3 Cache
size: 4MiB
capacity: 4MiB
capabilities: synchronous internal write-back unified
configuration: level=3
*-memory UNCLAIMED
description: Memory controller
product: Sunrise Point-LP PMC
vendor: Intel Corporation
physical id: 1f.2
bus info: pci@0000:00:1f.2
version: 21
width: 32 bits
clock: 33MHz (30.3ns)
capabilities: bus_master
configuration: latency=0
resources: memory:dc244000-dc247fff
Resultado dos testes:
A execução de memtest86 produziu alguns resultados interessantes:
- Após cerca de 5 minutos, ele exibiu o logotipo da Intel e reiniciou.
- A mesma coisa aconteceu novamente, mas consegui gravar a maioria das mensagens primeiro.
- Na terceira vez, ele completou uma passagem completa (cerca de 45 minutos) e depois caiu novamente alguns minutos na segunda passagem.
- Vou deixá-lo rodando, mas duvido que consiga passar por 4 passagens.
A segunda tentativa resultou em:
Test 4: Addr: 33090D380 Expected 08080808 Actual: 18080808 CPU:2
Test 4: Addr: 33090D38C Expected 08080808 Actual: 08080818 CPU:2
Test 4: Addr: 33090D390 Expected 08080808 Actual: [???]
Test 4: Addr: 33090D394 Expected 08080808 Actual: [???]
A terceira vez, que passou pela primeira passagem, mostrou:
Observe que os endereços não são os mesmos da vez anterior (embora ambos tenham 4 erros).
Acesse https://www.memtest86.com/ e baixe/execute gratuitamente
memtest
para testar sua memória. Obtenha pelo menos uma aprovação completa em todos os testes 4/4 para confirmar uma boa memória. Isso levará muitas horas para ser concluído.Atualização nº 1:
memtest
fracassado.Você tem um stick de 16G de RAM com defeito ou uma memória cache ruim em sua placa-mãe. Tente recolocar o stick de 16G RAM e veja se isso ajuda. FYI: para uma velocidade de memória ideal, é melhor ter dois pentes de 8G RAM em vez de um pente de 16G RAM. Também facilita a solução de problemas de memória.
Verifique se sua CPU não está com overclock ou se a memória XMP não está habilitada em seu BIOS.
Verifique a versão do seu BIOS com
sudo dmidecode -s bios-version
e, em seguida, acesse o site do fabricante e verifique se há um BIOS mais recente.Atualização nº 1:
O usuário possui o BIOS mais recente, versão: BNKBL357.86A.0080.2019.0725.1139, data: 25/07/2019