[英]AWS ECS tasks are being killed by OOM without leaving any trace
我有一個 ECS 集群,我在其中放置一個作為守護進程運行的容器來監視所有其他進程。 但是,我看到這個容器不時地被 OOM 殺死而沒有留下任何痕跡。 我只是碰巧發現其中一個被殺。 這導致了一些日志重復,但我想知道是否有一種方法可以跟蹤這些重新啟動,因為當我查看 ECS 集群事件時,沒有關於此任務以任何方式重新啟動的信息。
我從 kube.netes 了解更多,所以我會在這里打個比方。 當這種情況發生在 kube.netes 上時,當您從所有 pod 獲取信息 ( kubectl get pods
) 時,您會看到一個RESTARTS
計數器,有什么方法可以找到關於 AWS ECS 任務的信息嗎? 我正在努力尋找文檔
我確定了任務,還確定了每個任務的狀態以獲取更多信息,但我找不到任何提示該進程之前已重新啟動或終止。
這是一個任務細節示例
- attachments: []
attributes:
- name: ecs.cpu-architecture
value: x86_64
availabilityZone: us-east-2c
clusterArn: arn:aws:ecs:us-west-2:99999999999:cluster/dev
connectivity: CONNECTED
connectivityAt: '2023-01-24T23:03:23.315000-05:00'
containerInstanceArn: arn:aws:ecs:us-east-2:99999999999:container-instance/dev/eb8875fhfghghghfjyjk88c8f96433b8
containers:
- containerArn: arn:aws:ecs:us-east-2:99999999999:container/dev/05d4a402ee274a3ca90a86e46292a63a/e54af51f-2420-47ab-bff6-dcd4f976ad2e
cpu: '500'
healthStatus: HEALTHY
image: public.ecr.aws/datadog/agent:7.36.1
lastStatus: RUNNING
memory: '750'
name: datadog-agent
networkBindings:
- bindIP: 0.0.0.0
containerPort: 8125
hostPort: 8125
protocol: udp
- bindIP: 0.0.0.0
containerPort: 8126
hostPort: 8126
protocol: tcp
networkInterfaces: []
runtimeId: 75559b7327258d69fe61cac2dfe58b12d292bdb7b3a720c457231ee9e3e4190a
taskArn: arn:aws:ecs:us-east-2:99999999999:task/dev/05d4a402ee274a3ca90a86e46292a63a
cpu: '500'
createdAt: '2023-01-24T23:03:22.841000-05:00'
desiredStatus: RUNNING
enableExecuteCommand: false
group: service:datadog-agent
healthStatus: HEALTHY
lastStatus: RUNNING
launchType: EC2
memory: '750'
overrides:
containerOverrides:
- name: datadog-agent
inferenceAcceleratorOverrides: []
pullStartedAt: '2023-01-24T23:03:25.471000-05:00'
pullStoppedAt: '2023-01-24T23:03:39.790000-05:00'
startedAt: '2023-01-24T23:03:47.514000-05:00'
startedBy: ecs-svc/1726924224402147943
tags: []
taskArn: arn:aws:ecs:us-west-2:99999999999:task/dev/05d4a402ee274a3ca90a86e46292a63a
taskDefinitionArn: arn:aws:ecs:us-west-2:99999999999:task-definition/datadog-agent-task:5
version: 2
我認為 ECS 不會跟蹤或公開任務的重啟計數器。 如果您希望在任務重新啟動時收到通知,您可以創建Event Bridge訂閱。
您可以將ECS Event與EventBridge
一起使用,並在此類事件發生時添加任何操作,例如記錄日志。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.