我注意到 AKS 服务之一处于失败状态。当我去诊断时,我发现不再支持当前版本。所以我尝试按照此处所述的说明进行操作:https ://docs.microsoft.com/en-us/azure/aks/upgrade-cluster
我首先运行了命令:
az aks get-upgrades --resource-group myResourceGroup --name myAKSCluster --output table
接着:
az aks upgrade --resource-group myResourceGroup --name myAKSCluster --kubernetes-version new_version
这会产生一个错误:
操作失败,状态为:“冲突”。详细信息:当集群处于故障状态时,不允许升级。有关解决步骤,请访问https://aka.ms/aks-cluster-failed以排除集群状态可能失败的原因以及修复集群状态的步骤。
因此,由于旧版本导致状态失败,并且由于状态失败而无法更新版本......我检查了这个https://stackoverflow.com/questions/54631309/this-container-service-is-in-a-失败状态,但这不是我们的问题,我们有很多资源可以使用(我们检查过az aks show --resource-group myResourceGroup --name myAKSCluster --query agentPoolProfiles
)
删除和重新创建 AKS 不是一种选择。
因此,经过数小时尝试不同的解决方案并失败后,我在此处的答案中找到了解决此问题的方法:https ://github.com/Azure/AKS/issues/542
为了修复由于版本过时而导致的失败状态,我必须简单地执行以下操作:
升级到已经存在的版本。所以我的版本是 1.14.8,我只是运行:
修复了集群的失败状态!
在此之后,我刚刚升级到正确的下一个版本(在我的情况下为 1.18.19):
我希望这可以节省几个小时的挫败感:)