AWS Glue-選擇動態文件

Question

有誰知道如何從S3存儲桶中獲取動態文件？ 我在S3存儲桶上安裝了搜尋器，但是我的問題是，每天都會有新文件帶有YYYY-MM-DD-HH-MM-SS后綴。

當我通過目錄讀取表時，它會讀取目錄中存在的所有文件？ 是否可以動態選擇給定日期的最新三個文件並將其用作源？

謝謝！

Answer 1

如果文件位於同一位置，則無需重新運行搜尋器。 例如，如果您的數據文件夾為s3://bucket/data/<files>則可以向其中添加新文件並運行ETL作業-新文件將自動被拾取。

但是，如果數據到達新分區（如s3://bucket/data/<year>/<month>/<day>/<files>則您需要運行MSCK REPAIR TABLE <catalog-table-name>器或執行MSCK REPAIR TABLE <catalog-table-name>在Athena中使用MSCK REPAIR TABLE <catalog-table-name>在開始Glue ETL作業之前在Glue Catalog中注冊新分區。

當數據加載到DynamicFrame或spark的DataFrame中時，您可以應用一些過濾器以僅使用所需的數據。 如果仍要使用文件名，則可以使用input_file_name spark函數將其添加為列，然后應用過濾：

from pyspark.sql.functions import col, input_file_name

df.withColumn("filename", input_file_name)
  .where(col("filename") == "your-filename")

如果您控制文件的發送方式，建議您將其放入分區（指示日期的子文件夾，即/data/<year>/<month>/<day>/或/data/<year-month-day>/ ），以便您可以從在AWS Glue中使用下推謂詞中受益

AWS Glue-選擇動態文件

問題描述

1 個解決方案

解決方案1
0 2018-09-30 23:58:37

AWS Glue-選擇動態文件

問題描述

1 個解決方案

解決方案1 0 2018-09-30 23:58:37

解決方案1
0 2018-09-30 23:58:37