簡體 English 中英

AWS膠水ETL作業在批次的S3事件上觸發

[英]AWS Glue ETL Job triggered on batches of S3 Events

原文 2019-04-15 22:22:15 0 1 amazon-web-services/ bigdata/ etl/ aws-glue

我有一個S3存儲桶，其中包含許多文件（1000條記錄/分鍾）。 我想在批量刪除的文件上觸發Glue ETL作業。

我已經看過使用Firehose來聚合事件的批次，但這需要大量的鏈接資源。 喜歡S3 - > Lambda - > Firehose - > ......

批量處理數據的最佳方法是什么？

1 個解決方案

您可以使用AWS Glue Job Triggers，它允許您以預定的時間間隔運行粘合作業，而不是作為S3事件觸發器運行？

你在處理流數據嗎？ 在您的信息有限的情況下，請勿查看Firehose的用例/用途。

如何通過 S3 事件或 AWS Lambda 觸發 Glue ETL Pyspark 作業？

[英]How to Trigger Glue ETL Pyspark job through S3 Events or AWS Lambda?

從 AWS Redshift 到 S3 的 AWS Glue ETL 作業失敗

[英]AWS Glue ETL job from AWS Redshift to S3 fails

AWS Glue ETL：將數據傳輸到S3存儲桶

[英]AWS Glue ETL : transfer data to S3 Bucket

AWS Glue：ETL 讀取 S3 CSV 文件

[英]AWS Glue: ETL to read S3 CSV files

在S3觸發的AWS中運行ETL python腳本

[英]Run ETL python script in AWS triggered by S3

無法填充 AWS Glue ETL 作業指標

[英]Not able to populate AWS Glue ETL Job metrics

使用日期作為變量為 ETL 參數化 AWS Glue 作業

[英]Parameterize AWS Glue Job for ETL with Date as variables

ETL：在AWS膠粘作業中展平嵌套數組

[英]ETL : Flatten a nested array in an AWS glue job

使用 AWS Glue ETL 將鑲木地板文件從 S3 加載到 AWS RDS 需要很長時間

[英]Loading parquet file from S3 to AWS RDS taking extremely long time using AWS Glue ETL

運行 AWS Glue ETL 作業並命名 output 文件名時，有沒有辦法從 S3 存儲桶讀取文件名。 pyspark 是否提供了一種方法來做到這一點？

[英]Is there a way to read filename from S3 bucket when running AWS Glue ETL job and name the output filename. Does pyspark provide a way to do it?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 如何通過 S3 事件或 AWS Lambda 觸發 Glue ETL Pyspark 作業？從 AWS Redshift 到 S3 的 AWS Glue ETL 作業失敗 AWS Glue ETL：將數據傳輸到S3存儲桶 AWS Glue：ETL 讀取 S3 CSV 文件在S3觸發的AWS中運行ETL python腳本無法填充 AWS Glue ETL 作業指標使用日期作為變量為 ETL 參數化 AWS Glue 作業 ETL：在AWS膠粘作業中展平嵌套數組使用 AWS Glue ETL 將鑲木地板文件從 S3 加載到 AWS RDS 需要很長時間運行 AWS Glue ETL 作業並命名 output 文件名時，有沒有辦法從 S3 存儲桶讀取文件名。 pyspark 是否提供了一種方法來做到這一點？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM