我有一个扩展组 (ASG),用于使实例为执行任务做好准备。需要时,实例会与 ASG 分离,并且 ASG 会在需要时启动另一个实例。
实例类型为 c6g.4xlarge。操作系统为 ubuntu 22.04
下面是显示启动时间的日志。
systemd[1]: Startup finished in 4.850s (kernel) + 42min 16.004s (userspace) = 42min 20.854s.
我可以看到多个这样的失败的 SSM 日志
ERROR [Registrar] failed to register identity: error calling RegisterManagedInstance API: RequestError: send request failed
caused by: Post "https://ssm.us-xxxx-x.amazonaws.com/": dial tcp xx.xx.xx.xx:xx: i/o timeout
INFO [Registrar] sleeping for 18.7 minutes before retrying registration
这种情况只发生在百分之几的情况下,我无法找出其中的规律。
这是子网问题。使用的 ASG 有多个子网,其中一个子网导致了此问题。我通过检查所有存在此问题的实例来验证这一点,所有这些实例都具有相同的 ASG。