我有多个节点,每个节点都有多个相同大小的磁盘。我想要任何一个
- collectd 报告单个已用/空闲指标,该指标是这些多个磁盘的聚合
- 构造一个 grafana 查询,将多个磁盘组合成一个 %-free 指标
我有 12 个混合 Ubuntu 12/14 数据库 Cassandra 节点。所有节点都是带有 SSD、1Gb 网卡的裸机节点,并且都位于同一个 DC(托管主机)中。
在轻量操作下,所有节点与我们的云节点(在同一个 DC 中)之间的延迟都在 1ms 以下。
当我开始增加对数据库节点的写入时,进出这些数据库节点的延迟大幅攀升至 300 毫秒左右。CPU 负载也在 1 左右(4 个物理核心),磁盘利用率低于 3%,通过 dstat,网络负载在 18MiB 左右。
对 Cassandra 的本地读写相对较快,所以我已经排除了应用层过载的可能性。
我应该研究哪些工具和设置来调整以了解为什么我的延迟如此糟糕?我有监控工具来查看这些问题,我不确定从哪里开始诊断它们。