假设我收集了 2x24 小时内的每秒磁盘传输数据,即每 15 秒对数据进行一次瞬时采样。如果我想使用数据来提供存储,我可以/应该对样本应用什么统计分析?
我应该简单地使用峰值(发生时间少于 1%)吗?我应该使用均值/平均值吗?还是涉及均值和偏差的公式?
假设我收集了 2x24 小时内的每秒磁盘传输数据,即每 15 秒对数据进行一次瞬时采样。如果我想使用数据来提供存储,我可以/应该对样本应用什么统计分析?
我应该简单地使用峰值(发生时间少于 1%)吗?我应该使用均值/平均值吗?还是涉及均值和偏差的公式?
你总是根据峰值调整大小,除非它是那种在推动大量 IO 时能够承受高延迟的工作负载。这就是为什么宽条带化如此受欢迎的部分原因——你可以把一堆工作负载和大小放在一起,以达到它们聚合使用的峰值——不同的部分会在不同的时间达到峰值,所以你可以使用更便宜的磁盘来提供相同的容量。
宽条带化假设这是在某种集中式存储上。如果它是本地的,当然你不能那样聚合工作量。
不幸的是,这个问题没有简单的答案。首先,考虑您的需求。你愿意/能够花多少钱?您需要多少冗余?您需要多少总存储空间?你能容忍多少延迟?在您希望系统持续的时间内(大小和 iops 的增长),您会有多少增长?您是否有时间维护和修剪数据以缩小规模?
我最接近回答你的问题的是,如果你不能在任何给定时间处理瞬时 iops,你只会增加延迟。如果延迟不重要,那么根据平均 iops 的预计增长购买存储是一个不错的起点。
注意:冗余不是备份解决方案,因此也要规划备份。备份可以(应该)在时间和空间上与您的实时数据隔离。