Marc Hughes提出的问题 -server

Marc Hughes

Asked: 2015-10-07 07:43:57 +0800 CST

如何判断 kubernetes 集群中的容器何时/是否/为什么重新启动？

我在谷歌容器引擎中有一个单节点 kubernetes 集群可以玩。

现在有两次，我在其中托管的一个小型个人网站已经离线了几分钟。当我查看容器的日志时，我看到最近完成了正常的启动顺序，所以我假设容器死亡（或被杀死？）并重新启动。

我怎样才能弄清楚发生这种情况的方式和原因？

有没有办法在容器意外启动/停止时获得警报？

Marc Hughes

Asked: 2012-10-26 14:20:14 +0800 CST

我们有一个托管在亚马逊网络服务上的网络应用程序。我们的数据库是一个运行 5.1.57 的 multi-az RDS MySQL 服务器和 3-4 个应用程序服务器与之通信。

今天，我们开始看到很多类似“超出锁定等待超时；尝试重新启动事务”的错误——几乎 1% 的 POST 请求都看到了这一点。

网站上运行的代码没有任何修改。没有架构更改。我们的流量并没有大幅增加。我一直在查看正在运行的进程，似乎没有一个失控。

我尝试将我们的 RDS 实例从小扩展到大，但没有效果。

两天前，亚马逊发生了一些故障。作为从中恢复的一部分，我们的 RDS 服务器和我们的应用程序服务器最终位于不同的可用区，但都在同一区域内。但是昨天，一切都很好，所以我不相信这有关系。

锁定超时存在于不同类型的请求中，并且发生在不同的 InnoDB 表中。

当我们开始发现问题时，我注意到打开的连接数量猛增，但它们可能是一种症状而不是原因。

我下一步要调试什么？

连接图