这是一个困扰我一段时间的问题,我似乎在网上找不到任何谈论它的东西。我有一台运行 VMware Hypervisor ESXi 的服务器。当我在上面启动虚拟机时,它们通常需要 2-3 分钟才能启动;不是很长的时间,但不是瞬间的。但是,当我查看服务器上的性能日志时,处理器、RAM 或磁盘使用率都不是 100% 左右;通常他们平均在 60%-80% 左右 那么如果服务器有工作要做,为什么不以 100% 的速度完成呢?
在我看来,在任何给定时刻,限制性能的组件都应该以 100% 运行。例如,如果我有一个非常慢的硬盘驱动器,那么它应该几乎总是以 100% 的速度运行。因此,至少其中一个区域(处理器、RAM、磁盘和网络)应始终处于 100%,除非服务器处于完全空闲状态。
为什么不是这样?
延迟将是原因之一。“磁盘在我可以做任何其他事情之前给我我需要的数据”与数据返回的时间之间的滞后将使 CPU 在这段时间内处于空闲状态。
资源可能确实以 100% 运行,但时间很短。操作系统启动将遵循“处理或决定某事、从磁盘获取某事、在内存中执行某事、使用设备执行某事”的一般模式,每秒重复多次。因此,当您看到磁盘在 2 秒内以 25% 的速度运行时,这可能意味着它以 100% 的速度运行了 0.5 秒,然后在其余时间处于空闲状态。
正如 EEAA 指出的那样,多核系统使这变得更加复杂。CPU 上可以执行四个线程的单线程软件在全速运行时只能达到 25%。即使是多线程软件也很少能达到 100%,因为数据必须(通常)从硬盘驱动器流向 RAM,再到缓存,再到 CPU。保持管道满是困难的,而且往往主要发生在可预测的工作负载上,比如视频编码。在这种情况下,操作系统可以观察读取模式并在需要之前检索数据,将其放入适当的缓存中,例如 RAM 中的磁盘缓存。
你以一种非常简单的方式思考这个问题,这导致你做出一些不正确的假设,我会试着澄清一下。
首先,可能是最简单的,在多核系统上,为了了解 CPU 使用情况,您必须考虑进程负载是否是多线程的,并且旨在利用多核。如果不是这种情况,根据运行的进程组合,您可能永远不会看到 100% 的使用率。曾经。
其次,需要考虑IO设备的性能。例如,您的系统如何知道您的设备能够执行多少 IOps?它没有。一个更有意义的指标是您在引导期间的
iowait
值(在引导过程中可能难以获得)或引导期间的磁盘队列/延迟(应该更容易从您的管理程序获得)。如果您看到队列或延迟峰值,则您的 IO 设备可能是导致性能问题的一个因素。我已经使用服务器大约 20 年了,当组件一直以 100% 运行时,这通常不是一件好事。
例如,假设您有一个 SQL 数据库,您不想交换到磁盘,而是想完全耗尽内存。
如果您的数据库是 24GB 而操作系统需要 8GB,那么您不会只想为机器分配 32GB 的 RAM,有很多“事情”可能出错,代码错误,DDOS,应用程序使用量大,谁知道呢,没有任何空间,你怎么知道服务器有问题?
我们的数据中心有大约 2000 台服务器,我们希望看到它们都以大约 75% 的 CPU 和 RAM 运行,hhd 空间位于我们的 SAN 上,所以这是一个完全不同的蜡球。当 CPU 或 RAM 达到 85% 时,我们还会发出警报,并在达到 90% 时发出警报。