繁体   English   中英

Azure Kubernetes 服务 (AKS) 不再能够创建新的节点池

[英]Azure Kubernetes Service (AKS) no longer able to create new nodepools

几天前,我们的 AKS 集群遭遇了后端“停机”,Azure 团队的一名支持工程师证实了这一点。 这种停机的主要影响似乎特别影响了我们集群的 LoadBalancer。 当我在集群上创建一个新的节点池时,我第一次注意到这个错误,该节点池失败并显示一条错误消息:

{
  "status": "Failed",
  "error": {
    "code": "ResourceOperationFailure",
    "message": "The resource operation completed with terminal provisioning state 'Failed'.",
    "details": [
      {
        "code": "ReconcileStandardLoadBalancerError",
        "message": "Reconcile standard load balancer failed. Details: outboundReconciler retry failed: Category: ClientError; SubCode: InvalidRequestFormat_DuplicateResourceName; Dependency: Microsoft.Network/LoadBalancers; OrginalError: Code=\"InvalidRequestFormat\" Message=\"Cannot parse the request.\" Details=[{\"code\":\"DuplicateResourceName\",\"message\":\"Resource /subscriptions//resourceGroups//providers/Microsoft.Network/loadBalancers/ has two child resources with the same name (REDACTED-PUBLIC-IP-RESOURCE-NAME).\"}]; AKSTeam: Networking."
      }
    ]
  }
}

由于在此集群上创建新节点池时发生此错误,因此我们完全没有成功。

据我所知,它引用的资源是公共 IP 地址没有重复,但我真的根本不了解错误响应。

我一直在与 AKS 的支持团队联系,但他们似乎也不知所措,并建议只更新现有的节点映像版本,我 99% 肯定不会解决这个问题。 我一直在努力解决这个问题,并且不完全了解实际问题是什么。 任何帮助都将不胜感激,即使它只是类似的错误体验,例如这个。

谢谢。

我对该错误的解读是 AKS 无法识别存在公共 IP,因此尝试再次创建它。 它失败了,所以当你看的时候,只有一个。

我会按顺序尝试以下操作。

  1. 确保对所有资源的权限都正确,并包括 AKS 群集帐户。 如果它们看起来不错,我什至会考虑为所有内容提供额外的Reader访问权限。 这是基于这样的假设:如果 AKS 可以看到现有资源,它就不会尝试创建它。
  2. 从负载均衡器中删除公共 IP 配置。 由于名称重复,AKS 无法创建它,因此删除它应该会消除冲突。
  3. 删除公共 IP 资源。 与 (2) 类似的基本原理。
  4. 删除负载均衡器。

警告:这些对您现有集群的风险依次增加,并且可能导致公共 IP 地址更改、完全入口故障或更糟。 在您尝试之前,我会(好吧……我不会,但您应该)与支持团队讨论这些问题。

-戴夫

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM