[英]AWS Glue enableUpdateCatalog not creating new partitions after successful job run
我遇到了一個問題,我設置enableUpdateCatalog=True
和updateBehaviour=LOG
來更新我的具有 1 個分區鍵的膠水表。 作業完成后,我的膠水目錄表上沒有添加新分區,但 S3 中的數據由我使用的分區鍵分隔,我如何讓作業自動對膠水目錄表進行分區? 目前我必須手動運行 boto3 create_partition
在我的膠水目錄表上創建分區。 我希望我的工作能夠自動創建分區,因為它在由分區鍵代碼分隔的 S3 路徑中發現:
additionalOptions = {
"enableUpdateCatalog": True,
"updateBehavior": "LOG"}
additionalOptions["partitionKeys"] = ["partition_key0", "partition_key1"]
my_df = glueContext.write_dynamic_frame_from_catalog(frame=last_transform, database=<dst_db_name>,
table_name=<dst_tbl_name>, transformation_ctx="DataSink1",
additional_options=additionalOptions)
job.commit()
PS:我目前使用的是PARQUET格式
我是否錯過了必須添加到我的工作中以便它可以從工作本身創建分區的任何權利?
我通過將 useGlueParquetWriter: 'true' 添加到 CATALOG 表屬性來使其工作。 而且我還添加了
format_options = {
'useGlueParquetWriter': True
}
在write_dynamic_frame.from_catalog
調用中。 這些步驟讓它開始工作:)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.