Tenho usado a AWS há décadas e comecei a usar instâncias spot por vários motivos, incluindo motivos profissionais, como teste de software que desenvolvo, etc. Eu uso principalmente instâncias do Windows Server 2022 às quais me conecto usando RDP.
Eu mesmo criei um conjunto de scripts para gerar novas instâncias com base em instantâneos quando necessário e salvá-los automaticamente em instantâneos quando não precisar deles.
No último ano ou mais, está indo muito bem. Tive alguns casos em que eles foram desligados repentinamente e sempre presumi que era por causa dos servidores que precisavam de mais recursos para fornecer aos usuários que estão dispostos a pagar mais ou usar instâncias sob demanda.
Nos últimos dois meses, tive vários desligamentos, às vezes consecutivos. Às vezes, isso acontece várias vezes em um curto espaço de tempo e depois passa semanas sem acontecer nada.
Tentei aumentar o preço da solicitação spot para o máximo que pude, apenas para fins de teste, e ele ainda cairia depois de um tempo. Se eu olhar para o histórico de preços, tudo está baixo e vejo uma linha muito estável e plana indicando que os preços não estão flutuando. Cada vez que examino isso com mais detalhes, vejo:
- Detalhes da instância no EC2 : eu veria
State transition reason / User initiated
- Detalhes das solicitações spot no EC2 : eu veria
Status failed, bad-parameters
- Mas no Cloudtrail o que vejo conta uma história diferente. Nos logs eu veria:
// most of this is redacted but here are some relevant parts:
"invokedBy": "spot.amazonaws.com",
"eventType": "AwsApiCall",
"managementEvent": true,
"eventCategory": "Management"
Portanto, o Cloudtrail está basicamente me dizendo que NÃO foi iniciado pelo usuário, o que me diz que o problema não está na minha instância. Porque a princípio pensei, talvez minha instância do Windows Server esteja travando e é por isso que diz "iniciado pelo usuário", mas não.
Tem sido muito chato e, sim, acho que a solução seria usar instâncias sob demanda, mas estou gastando muito dinheiro na AWS e gostaria de continuar usando instâncias spot.
Alguém já teve experiências semelhantes? Alguém poderia ajudar a depurar ainda mais esse problema?
Obrigado!