[英]Glue crawler creating multiple tables
我有 2 個 S3 存儲桶,格式如下:
- s3://bucket/{lob_name_1}/{table_name}/{current_date}/table_name.csv
- s3://bucket/{lob_name_2}/{table_name}/{current_date}/table_name.csv
我們有屬於 2 個不同 LOB 的相同表名。 我們有一個 AWS Glue 爬蟲,每個爬蟲都用於一個 LOB。 當爬網程序針對第一個 LOB 運行時,將按預期創建表。 當爬網程序針對第二個 LOB 運行時,LOB 1 和 LOB 2 之間的公共表將使用不同的名稱重新創建。 有沒有一種方法可以防止在第二個 LOB 的爬蟲運行時創建附加表?
您應該使用一個參數來解決您的問題
為每個 S3 路徑創建一個模式:true
配置選項
數據存儲中的架構更新:忽略更改並且不更新數據目錄中的表。
從表中繼承架構:使用表中的元數據更新所有新的和現有的分區。
Object 數據存儲中的刪除:忽略更改,不更新數據目錄中的表。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.