AWS Glue ETL 作業中的 Boto3 Glue

Question

我正在運行 AWS Glue ETL 作業 (Pyspark)，我在其中創建了 Glue 的 boto3 客戶端來啟動爬蟲並執行其他一些 PySpark 處理。 問題是調用start_crawler后 Glue 作業繼續運行。 它既不給出任何錯誤，也不結束或啟動爬蟲。 我的代碼片段如下：

import sys
import boto3
import time

glue_client = boto3.client('glue', region_name = 'us-east-1')
crawler_name = 'test_crawler'
    
print('Starting crawler...')
print(crawler_name)
glue_client.start_crawler(Name=crawler_name)

而如果我在 Python Shell Glue Job 中執行相同的代碼，它會成功啟動爬蟲並終止作業。 我在這里做錯了什么還是我需要做一些特定的 w.r.t Glue ETL 工作？

編輯：我的 Glue 作業附加了一個 Glue 連接，我用它來連接到 RDS。 如果我刪除它，那么這段代碼可以正常工作。 但我需要這個連接才能連接到 RDS。 有什么幫助嗎？

Answer 1

這不是您的問題的答案，而只是一個提示。 我認為在同一工作中啟動爬蟲並不是一個好主意。 您無法控制爬蟲何時完成以及它是否完成得好。 我要做的是創建一個 AWS Step Function 並創建工作流，首先是粘合作業，完成后，下一步將是爬蟲。 這樣您就可以控制和監控該過程。

Answer 2

我遇到了同樣的錯誤，並將我的 ETL 作業移至 aws glue 3.0，現在 boto3 客戶端正在為我工作。 讓我知道這是否不能解決您的問題

AWS Glue ETL 作業中的 Boto3 Glue

問題描述

2 個解決方案

解決方案1
0 2021-09-02 11:01:30

解決方案2
0 2022-09-12 15:37:25

AWS Glue ETL 作業中的 Boto3 Glue

問題描述

2 個解決方案

解決方案1 0 2021-09-02 11:01:30

解決方案2 0 2022-09-12 15:37:25

解決方案1
0 2021-09-02 11:01:30

解決方案2
0 2022-09-12 15:37:25