![](/img/trans.png)
[英]AWS Glue : How to make sure glue crawler always picks up the latest file from S3
[英]AWS Glue Crawler: want separate table for folder in s3
我的 s3 文件结构是:
├── bucket
│ ├── customer_1
│ │ ├── year=2016
│ │ ├── year=2017
│ │ │ ├── month=11
│ │ | │ ├── sometype-2017-11-01.parquet
│ | | | ├── sometype-2017-11-02.parquet
│ | | | ├── ...
│ │ │ ├── month=12
│ │ | │ ├── sometype-2017-12-01.parquet
│ | | | ├── sometype-2017-12-02.parquet
│ | | | ├── ...
│ │ ├── year=2018
│ │ │ ├── month=01
│ │ | │ ├── sometype-2018-01-01.parquet
│ | | | ├── sometype-2018-01-02.parquet
│ | | | ├── ...
│ ├── customer_2
│ │ ├── year=2017
│ │ │ ├── month=11
│ │ | │ ├── moretype-2017-11-01.parquet
│ | | | ├── moretype-2017-11-02.parquet
│ | | | ├── ...
│ │ ├── year=...
我想使用 AWS Glue 爬虫为 customer_1 和 customer_2 创建单独的表。 如果我提到路径s3://bucket/customer_1
和s3://bucket/customer_2
它正在工作。
我已经尝试过s3://bucket/customer_*
和s3://bucket/*
,两者都不起作用并且无法在 Glue 目录中创建表
我本人最近遇到了这个问题。 AWS GLUE Crawlers 有这个选项Grouping behaviour for S3 data
。 如果未选中该复选框,它将尝试合并模式。 通过选中该复选框,您可以确保创建多个单独的数据库。
表级别应该是从桶的根开始的深度,从你想要单独的表的地方开始。
在您的情况下,深度为 2。
更多在这里
Glue 的自然倾向是将相似的模式(当指向父文件夹时)添加到同一个表,匹配度超过 70%(假设,在您的情况下,Cust1 和 Cust2 具有相同的模式)。 将它们保存在单独的文件夹中可能会根据文件夹名称创建相应的分区。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.