编辑:这是一个失控的申请流程,而不是 GCE。这是问题,并在下面回答:
我刚刚在试用帐户上的 CE 虚拟机发生了某种中断,但我没有在 Google Compute Outage 列表中看到任何中断报告。
我不确定它持续了多长时间,因为我不确定它是什么时候开始的。从行为来看,它与几周前似乎发生的事情相匹配(在重新启动 VM 之前,无法通过 Compute Engine 仪表板使用 SSH 登录)。
我的测试虚拟机在最后一天左右断开了我的 SSH 连接,当我今天注意到时,我无法重新连接。然后,我尝试使用 Compute Engine VM 列表上的“SSH”连接与 SSH 连接,但失败了。我唯一能做的就是在串行控制台上得到提示......但我根本没有启用密码的帐户,我依赖于 SSH(现已修复)。我不得不停止虚拟机并重新启动它......然后我可以使用虚拟机列表上的“SSH”连接选项进行连接,尽管我无法从外部连接。我连接到串行控制台并看到一些尝试连接到各种快照的网络错误消息。我尝试从我的 SSH 窗口通过 SSH 连接到远程服务器到虚拟机,但最初不能。大约一分钟后,远程连接突然恢复正常。
编辑:我收到了来自 Google 的支持请求的回复。他们说我经历了一次实时迁移事件。这听起来不对。这至少是 10 分钟的网络中断。我可以连接到串行控制台,它似乎反应灵敏。只有在重新启动并且谷歌管理失败后才能初始化它似乎突然开始工作。也许引导中的通信失败触发了迁移事件?我不知道。
编辑:我消除了对 GCE 稳定性的担忧,因为基础设施与问题无关。
发生这种情况可能有多种原因。我建议查看 SSH 故障排除文档以获取有关如何解决此问题的更多信息。
如果 Linux 来宾环境在实时迁移后未正确启动,也可能出现此问题。来宾环境包括一组脚本和进程,这些脚本和进程运行来自元数据服务器的内容,并为虚拟机运行创建适当的环境。在来宾环境设置期间可能未正确设置 SSH 密钥。
如本文档中所述,您还可以将“自动重启”字段设置为“真” 。如果实例因硬件问题或实时迁移而崩溃,这将自动重启您的实例。这将确保正确设置了 SSH 密钥。如果您需要有关 Google Cloud Platform 中实时迁移的更多信息,请随时阅读实时迁移文档。
该实例在串行控制台上似乎可以正常工作,但实际上由于失控的 root 特权(临时测试事物)进程耗尽了所有可用内存,它处于高度困境。系统 OOM 杀手不断杀死该进程,该进程将重新生成。
默认情况下,Google Compute Engine 应监控系统内存使用情况。有点奇怪,它没有。
所以,呃......鉴于这种情况,这个问题对任何人的有用性似乎很低。应该删除吗?