我有一堆 t2.small EC2 实例运行托管名为 thumbor 的图像处理库,用于简单的动态图像调整大小。原稿从 S3 加载。在实例前面我有一个 EC 负载均衡器。我在服务器中安装了 New Relic 服务器监控。
问题 随机的时候,我的服务器突然开始体验极高的 avg。响应时间。如果我查看 New Relic 中的统计数据,我唯一看到的是服务器 CPU 持续出现峰值,报告“被盗”的 CPU。
我的服务器似乎有足够高的容量,同时吞吐量并没有出现任何极端的峰值。
我注意到,如果我再次停止/启动服务器。然后被盗的 CPU 消失了,它们再次运行良好 - 直到下一次 - 可能是数小时或数天。
为什么会发生这种情况,我该怎么办?