Tenho um grupo de escala (ASG) que uso para manter instâncias prontas para uma tarefa. A instância é separada do ASG quando necessário e o ASG inicia outra instância quando necessário.
O tipo de instância é c6g.4xlarge. O SO é ubuntu 22.04
Abaixo está o log mostrando o tempo de inicialização.
systemd[1]: Startup finished in 4.850s (kernel) + 42min 16.004s (userspace) = 42min 20.854s.
Posso ver vários desses logs SSM com falha
ERROR [Registrar] failed to register identity: error calling RegisterManagedInstance API: RequestError: send request failed
caused by: Post "https://ssm.us-xxxx-x.amazonaws.com/": dial tcp xx.xx.xx.xx:xx: i/o timeout
INFO [Registrar] sleeping for 18.7 minutes before retrying registration
Isso acontece apenas em uma pequena porcentagem de casos e não consigo descobrir um padrão.
É um problema de sub-rede. O ASG usado tinha várias sub-redes e uma delas estava causando esse problema. Eu verifiquei isso passando por todas as instâncias com esse problema e todas essas instâncias tinham o mesmo ASG.