繁体 English 中英

Kubernetes 节点未就绪：超出了 ContainerGCFailed/ImageGCFailed 上下文截止日期

[英]Kubernetes Node NotReady: ContainerGCFailed / ImageGCFailed context deadline exceeded

原文 2019-03-07 21:08:25 6 2 kubernetes

工作节点进入“NotReady”状态， kubectl describe node的输出出现错误：

ContainerGCFailed rpc 错误：代码 = DeadlineExceeded desc = 超出上下文期限

环境：

Ubuntu，16.04 LTS

Kubernetes 版本：v1.13.3

Docker 版本：18.06.1-ce

在 Kubernetes GitHub k8 git上有一个关闭的问题，该问题由于与 Docker 问题相关的优点而被关闭。

解决问题的步骤：

kubectl describe node - 发现有问题的错误（根本原因尚不清楚）。
journalctl -u kubelet - 显示此相关消息：
跳过 pod 同步 - [容器运行时状态检查可能尚未完成但 PLEG 不健康：pleg 尚未成功]
它与这个开放的 k8 问题Ready/NotReady with PLEG 问题有关
使用 cloudwatch 检查 AWS 上的节点运行状况 - 一切似乎都很好。
journalctl -fu docker.service ：检查docker是否有错误/问题 - 输出没有显示任何与此相关的错误。
systemctl restart docker - 重新启动 docker后，节点进入“就绪”状态，但在 3-5 分钟后再次变为“未就绪”。

当我将更多 Pod 部署到节点（接近其资源容量但不认为它是直接依赖）或正在停止/启动实例（重新启动后就可以了，但一段时间后节点未就绪时，这一切似乎都开始了）。

问题：

错误的根本原因是什么？

如何监控此类问题并确保它不会发生？

这个问题有什么解决方法吗？

2 个解决方案

错误的根本原因是什么？

从我能够发现的情况来看，当与 Docker 联系时出现问题时，错误似乎发生了，要么是因为它超载，要么是因为它没有响应。 这是基于我的经验以及您提供的 GitHub 问题中提到的内容。

如何监控此类问题并确保它不会发生？

似乎没有明确的缓解或监控措施。 但似乎最好的方法是确保您的节点不会因 Pod 过载而过载。 我已经看到它并不总是显示在节点的磁盘或内存压力上 - 但这可能是分配给Docker的资源不足并且无法及时响应的问题。 建议的解决方案是为您的 pod 设置限制，以防止 Node.js 过载。

对于 GKE 中的托管 Kubernetes（不确定，但其他供应商可能具有类似功能），有一个称为node auto-repair 的功能。 这不会阻止节点压力或 Docker 相关问题，但是当它检测到不健康的节点时，它可以排空并重新部署节点。

如果您已经拥有资源和限制，那么确保不会发生这种情况的最佳方法似乎是增加对 pod 的内存资源请求。 这意味着每个节点的 pod 更少，每个节点上实际使用的内存应该更低。

另一种监视/识别的方法可以通过 SSH 进入节点检查内存，使用PS的进程，监视syslog和命令$docker stats --all

我有同样的问题。 我已经封锁并驱逐了豆荚。 重新启动了服务器。 节点自动进入就绪状态。

Kubernetes：Prometheus 上下文期限超过错误

[英]Kubernetes: Prometheus context deadline exceeded error

Kubernetes：节点未就绪

[英]Kubernetes: Node NotReady

状态未就绪的Kubernetes Worker节点

[英]Kubernetes Worker Node in Status NotReady

处于“NotReady”状态的 kubernetes 工作节点

[英]kubernetes worker node in "NotReady" status

Kubernetes：kubectl node01 notready

[英]Kubernetes: kubectl node01 notready

Kubernetes工作节点处于“未就绪”状态

[英]Kubernetes worker node staying in “NotReady” state

Kubernetes VPA 无法获取容器列表。原因：超出上下文截止日期。上次服务器错误：<nil>

[英]Kubernetes VPA failed to fetch list of containers. Reason: context deadline exceeded. Last server error: <nil>

检查 etcd 运行状况时超出上下文截止日期

[英]context deadline exceeded when check etcd health

etcdctl 抛出错误：超出上下文截止日期错误

[英]etcdctl throws Error: context deadline exceeded error

Helm 2 集群内代码：“超出上下文截止日期”

[英]Helm 2 in-cluster code: "context deadline exceeded"

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Kubernetes：Prometheus 上下文期限超过错误 Kubernetes：节点未就绪状态未就绪的Kubernetes Worker节点处于“NotReady”状态的 kubernetes 工作节点 Kubernetes：kubectl node01 notready Kubernetes工作节点处于“未就绪”状态 Kubernetes VPA 无法获取容器列表。原因：超出上下文截止日期。上次服务器错误：<nil> 检查 etcd 运行状况时超出上下文截止日期 etcdctl 抛出错误：超出上下文截止日期错误 Helm 2 集群内代码：“超出上下文截止日期”

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM