[英]How to Trigger Glue ETL Pyspark job through S3 Events or AWS Lambda?
[英]AWS Glue ETL Job triggered on batches of S3 Events
我有一個S3存儲桶,其中包含許多文件(1000條記錄/分鍾)。 我想在批量刪除的文件上觸發Glue ETL作業。
我已經看過使用Firehose來聚合事件的批次,但這需要大量的鏈接資源。 喜歡S3 - > Lambda - > Firehose - > ......
批量處理數據的最佳方法是什么?
您可以使用AWS Glue Job Triggers,它允許您以預定的時間間隔運行粘合作業,而不是作為S3事件觸發器運行?
你在處理流數據嗎? 在您的信息有限的情況下,請勿查看Firehose的用例/用途。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.