我们有 Hadoop 集群,我们正在收集指标收集数据,以调查 Spark 应用程序的缓慢行为
经过对我们的 Hadoop 集群的长期调查
我们从 Prometheus 指标点注意到 node_disk_io_now 的值高于正常值,并且它与数据节点机器上的所有 HDFS 磁盘相关
node_disk_io_now 定义是:
node_disk_io_now (field 9) 唯一应该归零的字段。当请求被提供给适当的结构 request_queue 时递增,并在完成时递减。
我们想知道,调整内核参数是否可以对磁盘性能产生积极影响。
根据 node_disk_io_now 定义,似乎有太多任务在队列中等待,
也许一些内核参数可以帮助改善上述行为,因此队列中的任务不会长时间存在
当操作系统或某些应用程序向磁盘询问正确的问题时,可以发现硬盘驱动器用户端可用的所有技巧。
您可以测试您的操作系统和您的应用程序是否会识别一个被调用的保留区域,
host protected area
该区域可以使用 hdparm 命令在 linux 中创建。https://en.wikipedia.org/wiki/Host_protected_area
我读到了一个陷阱
https://www.thomas-krenn.com/de/wiki/SSD_Over-Provisioning_mit_hdparm
操作系统可能会重新配置硬盘驱动器以忽略该设置。
/sys/module/libata/parameters/ignore_hpa
根据上面的链接,linux 本身似乎保留了这些信息 。“1”表示自动停用。因此,您需要尝试特别是在服务器重新启动后会发生什么。