Toby Allen Asked: 2009-05-08 08:34:07 +0800 CST2009-05-08 08:34:07 +0800 CST 2009-05-08 08:34:07 +0800 CST 什么是 ECC ram,为什么它更好? 772 我看过关于服务器上 ECC ram 使用的讨论。为什么更好? memory ecc 4 个回答 Voted Jeff Atwood 2009-08-21T03:24:36+08:002009-08-21T03:24:36+08:00 优秀的真实世界研究: 野外 DRAM 错误:大规模现场研究(pdf) 本文提供了该领域对 DRAM 内存错误的首次大规模研究。它基于从 Google 的服务器机群在两年多的时间里收集的数据,这些数据构成了数百万个 DIMM 天。我们研究中的 DRAM 涵盖了多个供应商、DRAM 密度和技术(DDR1、DDR2 和 FBDIMM)。 该论文解决了以下问题:在实践中记忆错误有多常见?它们的统计特性是什么?它们如何受到外部因素(如温度和系统利用率)的影响?它们如何随芯片特定因素(例如芯片密度、内存技术和 DIMM 使用年限)而变化? 我们发现,在许多方面,现场 DRAM 错误的行为与通常假设的非常不同。例如,我们观察到 DRAM 错误率比之前报告的要高几个数量级,FIT 率(每十亿设备小时的时间故障)为每 Mbit 25,000 到 70,000 次,每年受影响的 DIMM 超过 8%。我们提供了强有力的证据,表明记忆错误主要是硬错误,而不是以前大多数工作关注的软错误。我们发现,在影响 DIMM 在现场的错误行为的所有因素中,温度的影响非常小。最后,与人们普遍担心的不同,我们没有观察到任何迹象表明每 DIMM 的错误率会随着新一代 DIMM 的增加而增加。 有趣的是,大多数内存错误都是硬错误——硬内存错误是不可恢复的,这意味着内存必须被物理替换为 failed,而软内存错误可以通过用正确的值覆盖内存来修复。这表明 ECC 的价值是相当有限的。 内存系统中通常会发生两种错误。第一个称为可重复或硬错误。在这种情况下,一个硬件坏了,会一直返回不正确的结果。一个位可能会被卡住,因此无论写入什么,它总是返回“0”。硬错误通常表示内存模块松动、芯片烧毁、主板缺陷或其他物理问题。它们相对容易诊断和纠正,因为它们是一致的和可重复的。 听起来研究中的所有服务器都使用了 ECC,所以我们无法知道 ECC 与非 ECC 的错误率。 本文研究了大量商品服务器中 DRAM 错误的发生率和特征。我们的研究基于 2 年多来收集的数据,涵盖了多个供应商、世代、技术和容量的 DIMM。所有 DIMM 都配备了纠错逻辑 (ECC) 以纠正至少一位错误。 Best Answer Waldo 2009-05-08T08:46:41+08:002009-05-08T08:46:41+08:00 通过使用奇偶校验位,ECC RAM 可以从位的小错误中恢复。由于服务器是正常运行时间和可靠性很重要的共享资源,因此通常使用 ECC RAM,价格差异不大。ECC RAM 也用于 CAD/CAM 工作站,小的位错误可能导致计算错误,当设计进入制造阶段时,这将成为更严重的问题。 TStamper 2009-05-08T08:45:41+08:002009-05-08T08:45:41+08:00 ECC 与奇偶校验相比有几个优势。一方面,它可以检测和修复单位错误,并且无需停止整个系统即可。多位错误仍会返回奇偶校验错误,但在 PC 的生命周期内发生这种情况的几率非常低,除非内存本身有缺陷。ECC 就像汽车保险:它涵盖了大多数可能出错的事情,但它不能防止多车相撞。 更多详细信息:ECC 内存:服务器必备,而非台式机 Chealion 2009-05-08T08:39:09+08:002009-05-08T08:39:09+08:00 为了简单起见,引用维基百科: 计算机系统内部的电或磁干扰会导致 DRAM 的一位自发翻转到相反的状态。最初认为这主要是由于芯片封装材料中的污染物排放的 α 粒子,但研究 [5] 表明,DRAM 芯片中的大多数一次性(“软”)错误是由背景辐射引起的 ... 这个问题可以通过使用包含额外内存位的 DRAM 模块和利用这些位的内存控制器来缓解。这些额外的位用于记录奇偶校验或使用纠错码
优秀的真实世界研究:
野外 DRAM 错误:大规模现场研究(pdf)
有趣的是,大多数内存错误都是硬错误——硬内存错误是不可恢复的,这意味着内存必须被物理替换为 failed,而软内存错误可以通过用正确的值覆盖内存来修复。这表明 ECC 的价值是相当有限的。
听起来研究中的所有服务器都使用了 ECC,所以我们无法知道 ECC 与非 ECC 的错误率。
通过使用奇偶校验位,ECC RAM 可以从位的小错误中恢复。由于服务器是正常运行时间和可靠性很重要的共享资源,因此通常使用 ECC RAM,价格差异不大。ECC RAM 也用于 CAD/CAM 工作站,小的位错误可能导致计算错误,当设计进入制造阶段时,这将成为更严重的问题。
ECC 与奇偶校验相比有几个优势。一方面,它可以检测和修复单位错误,并且无需停止整个系统即可。多位错误仍会返回奇偶校验错误,但在 PC 的生命周期内发生这种情况的几率非常低,除非内存本身有缺陷。ECC 就像汽车保险:它涵盖了大多数可能出错的事情,但它不能防止多车相撞。
更多详细信息:ECC 内存:服务器必备,而非台式机
为了简单起见,引用维基百科: