AWS Glue Crawler：想要 s3 中文件夾的單獨表

Question

我的 s3 文件結構是：

├── bucket
│   ├── customer_1
│   │   ├── year=2016
│   │   ├── year=2017
│   │   │   ├── month=11
│   │   |   │   ├── sometype-2017-11-01.parquet
│   |   |   |   ├── sometype-2017-11-02.parquet
│   |   |   |   ├── ...
│   │   │   ├── month=12
│   │   |   │   ├── sometype-2017-12-01.parquet
│   |   |   |   ├── sometype-2017-12-02.parquet
│   |   |   |   ├── ...
│   │   ├── year=2018
│   │   │   ├── month=01
│   │   |   │   ├── sometype-2018-01-01.parquet
│   |   |   |   ├── sometype-2018-01-02.parquet
│   |   |   |   ├── ...
│   ├── customer_2
│   │   ├── year=2017
│   │   │   ├── month=11
│   │   |   │   ├── moretype-2017-11-01.parquet
│   |   |   |   ├── moretype-2017-11-02.parquet
│   |   |   |   ├── ...
│   │   ├── year=...

我想使用 AWS Glue 爬蟲為 customer_1 和 customer_2 創建單獨的表。 如果我提到路徑s3://bucket/customer_1和s3://bucket/customer_2它正在工作。

我已經嘗試過s3://bucket/customer_*和s3://bucket/* ，兩者都不起作用並且無法在 Glue 目錄中創建表

Answer 1

我本人最近遇到了這個問題。 AWS GLUE Crawlers 有這個選項Grouping behaviour for S3 data 。 如果未選中該復選框，它將嘗試合並模式。 通過選中該復選框，您可以確保創建多個單獨的數據庫。

表級別應該是從桶的根開始的深度，從你想要單獨的表的地方開始。

在您的情況下，深度為 2。

更多在這里

Answer 2

Glue 的自然傾向是將相似的模式（當指向父文件夾時）添加到同一個表，匹配度超過 70%（假設，在您的情況下，Cust1 和 Cust2 具有相同的模式）。 將它們保存在單獨的文件夾中可能會根據文件夾名稱創建相應的分區。

AWS Glue Crawler：想要 s3 中文件夾的單獨表

問題描述

2 個解決方案

解決方案1
3 2021-10-06 14:43:23

解決方案2
2 2018-04-19 14:39:30

AWS Glue Crawler：想要 s3 中文件夾的單獨表

問題描述

2 個解決方案

解決方案1 3 2021-10-06 14:43:23

解決方案2 2 2018-04-19 14:39:30

解決方案1
3 2021-10-06 14:43:23

解決方案2
2 2018-04-19 14:39:30