繁体   English   中英

创建多个表的胶水爬虫

[英]Glue crawler creating multiple tables

我有 2 个 S3 存储桶,格式如下:

  1. s3://bucket/{lob_name_1}/{table_name}/{current_date}/table_name.csv
  2. s3://bucket/{lob_name_2}/{table_name}/{current_date}/table_name.csv

我们有属于 2 个不同 LOB 的相同表名。 我们有一个 AWS Glue 爬虫,每个爬虫都用于一个 LOB。 当爬网程序针对第一个 LOB 运行时,将按预期创建表。 当爬网程序针对第二个 LOB 运行时,LOB 1 和 LOB 2 之间的公共表将使用不同的名称重新创建。 有没有一种方法可以防止在第二个 LOB 的爬虫运行时创建附加表?

您应该使用一个参数来解决您的问题

为每个 S3 路径创建一个模式:true

配置选项

数据存储中的架构更新:忽略更改并且不更新数据目录中的表。

从表中继承架构:使用表中的元数据更新所有新的和现有的分区。

Object 数据存储中的删除:忽略更改,不更新数据目录中的表。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM