我正在使用 Nginx 和 uWSGI 在 EC2 服务器上运行 Django Web 应用程序。我也让 Celery 运行一些后台任务(没有 CRON 作业,只是偶尔的用户操作)。
该应用程序处于早期封闭测试阶段,目前没有活跃用户。
在过去的三天里,服务器在经历超高 CPU 负载后会倒塌,似乎是随机的(见屏幕截图)。
在此之前,该应用程序运行数周都没有问题。我对网站进行了一些编程更改,但没有对服务器配置进行更改(主要是合并模型)。
我试图从日志中提取一些东西(Nginx access.log、error.log 和 Django debug.log),但我没有看到任何错误或奇怪的东西(现在无法访问日志)。
此外,如果我事先没有重新启动服务器,我在迁移模型更改(在 venv 中)时遇到了类似的效果。有时,即使重新启动服务器,它也会变得如此缓慢,我不得不等待几分钟才能重新启动 Celery。
我需要帮助才能找到调查问题的起点。有任何想法吗?