簡體   English   中英

AWS ECS 任務被 OOM 殺死而沒有留下任何痕跡

[英]AWS ECS tasks are being killed by OOM without leaving any trace

我有一個 ECS 集群,我在其中放置一個作為守護進程運行的容器來監視所有其他進程。 但是,我看到這個容器不時地被 OOM 殺死而沒有留下任何痕跡。 我只是碰巧發現其中一個被殺。 這導致了一些日志重復,但我想知道是否有一種方法可以跟蹤這些重新啟動,因為當我查看 ECS 集群事件時,沒有關於此任務以任何方式重新啟動的信息。

我從 kube.netes 了解更多,所以我會在這里打個比方。 當這種情況發生在 kube.netes 上時,當您從所有 pod 獲取信息 ( kubectl get pods ) 時,您會看到一個RESTARTS計數器,有什么方法可以找到關於 AWS ECS 任務的信息嗎? 我正在努力尋找文檔

我確定了任務,還確定了每個任務的狀態以獲取更多信息,但我找不到任何提示該進程之前已重新啟動或終止。

這是一個任務細節示例

- attachments: []
  attributes:
  - name: ecs.cpu-architecture
    value: x86_64
  availabilityZone: us-east-2c
  clusterArn: arn:aws:ecs:us-west-2:99999999999:cluster/dev
  connectivity: CONNECTED
  connectivityAt: '2023-01-24T23:03:23.315000-05:00'
  containerInstanceArn: arn:aws:ecs:us-east-2:99999999999:container-instance/dev/eb8875fhfghghghfjyjk88c8f96433b8
  containers:
  - containerArn: arn:aws:ecs:us-east-2:99999999999:container/dev/05d4a402ee274a3ca90a86e46292a63a/e54af51f-2420-47ab-bff6-dcd4f976ad2e
    cpu: '500'
    healthStatus: HEALTHY
    image: public.ecr.aws/datadog/agent:7.36.1
    lastStatus: RUNNING
    memory: '750'
    name: datadog-agent
    networkBindings:
    - bindIP: 0.0.0.0
      containerPort: 8125
      hostPort: 8125
      protocol: udp
    - bindIP: 0.0.0.0
      containerPort: 8126
      hostPort: 8126
      protocol: tcp
    networkInterfaces: []
    runtimeId: 75559b7327258d69fe61cac2dfe58b12d292bdb7b3a720c457231ee9e3e4190a
    taskArn: arn:aws:ecs:us-east-2:99999999999:task/dev/05d4a402ee274a3ca90a86e46292a63a
  cpu: '500'
  createdAt: '2023-01-24T23:03:22.841000-05:00'
  desiredStatus: RUNNING
  enableExecuteCommand: false
  group: service:datadog-agent
  healthStatus: HEALTHY
  lastStatus: RUNNING
  launchType: EC2
  memory: '750'
  overrides:
    containerOverrides:
    - name: datadog-agent
    inferenceAcceleratorOverrides: []
  pullStartedAt: '2023-01-24T23:03:25.471000-05:00'
  pullStoppedAt: '2023-01-24T23:03:39.790000-05:00'
  startedAt: '2023-01-24T23:03:47.514000-05:00'
  startedBy: ecs-svc/1726924224402147943
  tags: []
  taskArn: arn:aws:ecs:us-west-2:99999999999:task/dev/05d4a402ee274a3ca90a86e46292a63a
  taskDefinitionArn: arn:aws:ecs:us-west-2:99999999999:task-definition/datadog-agent-task:5
  version: 2

我認為 ECS 不會跟蹤或公開任務的重啟計數器。 如果您希望在任務重新啟動時收到通知,您可以創建Event Bridge訂閱。

您可以將ECS EventEventBridge一起使用,並在此類事件發生時添加任何操作,例如記錄日志。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM