簡體   English   中英

創建多個表的膠水爬蟲

[英]Glue crawler creating multiple tables

我有 2 個 S3 存儲桶,格式如下:

  1. s3://bucket/{lob_name_1}/{table_name}/{current_date}/table_name.csv
  2. s3://bucket/{lob_name_2}/{table_name}/{current_date}/table_name.csv

我們有屬於 2 個不同 LOB 的相同表名。 我們有一個 AWS Glue 爬蟲,每個爬蟲都用於一個 LOB。 當爬網程序針對第一個 LOB 運行時,將按預期創建表。 當爬網程序針對第二個 LOB 運行時,LOB 1 和 LOB 2 之間的公共表將使用不同的名稱重新創建。 有沒有一種方法可以防止在第二個 LOB 的爬蟲運行時創建附加表?

您應該使用一個參數來解決您的問題

為每個 S3 路徑創建一個模式:true

配置選項

數據存儲中的架構更新:忽略更改並且不更新數據目錄中的表。

從表中繼承架構:使用表中的元數據更新所有新的和現有的分區。

Object 數據存儲中的刪除:忽略更改,不更新數據目錄中的表。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM