ras-mc-ctl --errors
报告结果如下:
661 2019-08-20 08:42:29 -0400 错误:更正过滤(同一区域中的一些未报告的错误) Generic CACHE Level-3 Generic Error, mcg mcgstatus=0, mci Corrected_error 基于阈值的错误状态:黄色,mcgcap=0x00000c09 ,状态=0x8c400c400001110b,地址=0x3334c0000080b06,杂项=0x00b501c0,tsc=0x3c6571e2bbea4,walltime=0x5d5beab4,cpuid=0x000806e9,银行=0x00000008
更频繁地:
728 2019-08-31 13:35:59 -0400 错误:更正过滤(同一区域中的一些未报告的错误)Generic CACHE Level-3 Generic Error, mcg mcgstatus=0, mci Corrected_error 基于阈值的错误状态:绿色,大量更正了缓存错误。系统运行,但可能很快会导致未更正的错误,mcgcap=0x00000c09,status=0x8c2000c00001110b,addr=0x2b6b100000374cf,misc=0x0001bdc0,tsc=0x376c4b0d8828,walltime=0x5d6aafff,cpuid=009bank=x
这些消息实际上意味着什么,人们可以/应该对它们做什么?
附加信息:
- 这是一款英特尔 NUC 7i7BNH,配备 16 Gb 内存、500G SSD 和 4K 显示器。
- 它运行 Ubuntu 18.0,最近有“apt upgrade”。
- BIOS 已更新到最近的 7 月版本。
- 我没有进行任何硬件修改。
lshw -C memory
显示:
*-firmware
description: BIOS
vendor: Intel Corp.
physical id: 0
version: BNKBL357.86A.0080.2019.0725.1139
date: 07/25/2019
size: 64KiB
capacity: 8128KiB
capabilities: pci upgrade shadowing cdboot bootselect socketedrom edd int13floppy1200 int13floppy720 int13floppy2880 int5printscreen int14serial int17printer acpi usb biosbootspecification uefi
*-memory
description: System Memory
physical id: 28
slot: System board or motherboard
size: 16GiB
*-bank:0
description: SODIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 MHz (0.5 ns)
product: CMSO16GX4M1A2133C15
vendor: AMI
physical id: 0
serial: 00000000
slot: ChannelA-DIMM0
size: 16GiB
width: 64 bits
clock: 2133MHz (0.5ns)
*-bank:1
description: [empty]
physical id: 1
slot: ChannelB-DIMM0
*-cache:0
description: L1 cache
physical id: 2d
slot: L1 Cache
size: 128KiB
capacity: 128KiB
capabilities: synchronous internal write-back unified
configuration: level=1
*-cache:1
description: L2 cache
physical id: 2e
slot: L2 Cache
size: 512KiB
capacity: 512KiB
capabilities: synchronous internal write-back unified
configuration: level=2
*-cache:2
description: L3 cache
physical id: 2f
slot: L3 Cache
size: 4MiB
capacity: 4MiB
capabilities: synchronous internal write-back unified
configuration: level=3
*-memory UNCLAIMED
description: Memory controller
product: Sunrise Point-LP PMC
vendor: Intel Corporation
physical id: 1f.2
bus info: pci@0000:00:1f.2
version: 21
width: 32 bits
clock: 33MHz (30.3ns)
capabilities: bus_master
configuration: latency=0
resources: memory:dc244000-dc247fff
试验结果:
运行 memtest86 产生了一些有趣的结果:
- 大约 5 分钟后,它显示 Intel 徽标并重新启动。
- 同样的事情再次发生,但我设法先记录了大部分消息。
- 第三次,它完成了一次完整的传球(大约 45 分钟),然后在第二次传球几分钟后再次坠毁。
- 我会让它继续运行,但我怀疑它会通过 4 次传球。
第二次尝试的结果是:
Test 4: Addr: 33090D380 Expected 08080808 Actual: 18080808 CPU:2
Test 4: Addr: 33090D38C Expected 08080808 Actual: 08080818 CPU:2
Test 4: Addr: 33090D390 Expected 08080808 Actual: [???]
Test 4: Addr: 33090D394 Expected 08080808 Actual: [???]
第三次通过了第一关,显示:
请注意,地址与上次不同(尽管两者都有 4 个错误)。
转到https://www.memtest86.com/并免费下载/运行它们
memtest
以测试您的记忆力。至少完成所有 4/4 测试以确认良好的记忆力。这将需要几个小时才能完成。更新#1:
memtest
失败的。您的 16G RAM 内存条有缺陷,或者主板上的缓存内存有问题。尝试重新安装 16G RAM 棒,看看是否有帮助。仅供参考:为了获得最佳内存速度,最好有两个 8G RAM 棒而不是一个 16G RAM 棒。它还可以更轻松地解决内存问题。
检查以确保您的 CPU 没有超频,或者您的 BIOS 中没有启用内存 XMP。
检查您的 BIOS 版本,
sudo dmidecode -s bios-version
然后访问制造商的网站并检查更新的 BIOS。更新#1:
用户拥有最新的BIOS,版本:BNKBL357.86A.0080.2019.0725.1139,日期:07/25/2019