我正在尝试确定在用于 HDFS 的 3x d2.2xlarge 实例的实例存储上配置 RAID 阵列是否有任何实际优势。最初我计划只挂载每个存储并将其添加为 Hadoop 的附加数据目录。但似乎 RAID 0 或 10 配置可能会带来一些额外的性能提升。由于持久性由 HDFS 本身处理,因此无需从该角度考虑 RAID 1 或 5(例如:如果一个实例上的一个或所有存储失败,则由其他数据节点的复制提供持久性)。RAID 6 似乎不切实际,因为已知的问题是重建时间长,并且由于 2x 奇偶校验写入而降低了吞吐量性能(再次似乎最好让 HDFS 处理持久性)。这使得 RAID 0 和 10 在理论上都比标准 HDD 具有更好的磁盘 I/O。
老实说,根本不推荐使用 RAID 来支持 HDFS。cloudera社区门户上有一个帖子-
https://community.cloudera.com/t5/Support-Questions/Should-we-use-RAID-with-Hadoop/td-p/201381
https://community.cloudera.com/t5/Support-Questions/Do-we-config-our-hadoop-right-JBOD-vs-RAID/td-p/187997
关于这一点。