![](/img/trans.png)
[英]AWS Glue : How to make sure glue crawler always picks up the latest file from S3
[英]AWS Glue Crawler: want separate table for folder in s3
我的 s3 文件結構是:
├── bucket
│ ├── customer_1
│ │ ├── year=2016
│ │ ├── year=2017
│ │ │ ├── month=11
│ │ | │ ├── sometype-2017-11-01.parquet
│ | | | ├── sometype-2017-11-02.parquet
│ | | | ├── ...
│ │ │ ├── month=12
│ │ | │ ├── sometype-2017-12-01.parquet
│ | | | ├── sometype-2017-12-02.parquet
│ | | | ├── ...
│ │ ├── year=2018
│ │ │ ├── month=01
│ │ | │ ├── sometype-2018-01-01.parquet
│ | | | ├── sometype-2018-01-02.parquet
│ | | | ├── ...
│ ├── customer_2
│ │ ├── year=2017
│ │ │ ├── month=11
│ │ | │ ├── moretype-2017-11-01.parquet
│ | | | ├── moretype-2017-11-02.parquet
│ | | | ├── ...
│ │ ├── year=...
我想使用 AWS Glue 爬蟲為 customer_1 和 customer_2 創建單獨的表。 如果我提到路徑s3://bucket/customer_1
和s3://bucket/customer_2
它正在工作。
我已經嘗試過s3://bucket/customer_*
和s3://bucket/*
,兩者都不起作用並且無法在 Glue 目錄中創建表
我本人最近遇到了這個問題。 AWS GLUE Crawlers 有這個選項Grouping behaviour for S3 data
。 如果未選中該復選框,它將嘗試合並模式。 通過選中該復選框,您可以確保創建多個單獨的數據庫。
表級別應該是從桶的根開始的深度,從你想要單獨的表的地方開始。
在您的情況下,深度為 2。
更多在這里
Glue 的自然傾向是將相似的模式(當指向父文件夾時)添加到同一個表,匹配度超過 70%(假設,在您的情況下,Cust1 和 Cust2 具有相同的模式)。 將它們保存在單獨的文件夾中可能會根據文件夾名稱創建相應的分區。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.