我正在尝试确定在用于 HDFS 的 3x d2.2xlarge 实例的实例存储上配置 RAID 阵列是否有任何实际优势。最初我计划只挂载每个存储并将其添加为 Hadoop 的附加数据目录。但似乎 RAID 0 或 10 配置可能会带来一些额外的性能提升。由于持久性由 HDFS 本身处理,因此无需从该角度考虑 RAID 1 或 5(例如:如果一个实例上的一个或所有存储失败,则由其他数据节点的复制提供持久性)。RAID 6 似乎不切实际,因为已知的问题是重建时间长,并且由于 2x 奇偶校验写入而降低了吞吐量性能(再次似乎最好让 HDFS 处理持久性)。这使得 RAID 0 和 10 在理论上都比标准 HDD 具有更好的磁盘 I/O。