繁体   English   中英

Aws Glue Crawler 在第一次爬网后没有更新表

[英]Aws Glue Crawler is not updating the table after 1st crawl

我正在添加一个由 Glue Databrew 在我的 S3 文件夹中创建的镶木地板格式的新文件。 新文件与前一个文件具有相同的架构。 但是当我第二次运行 Crawler 时,它既没有更新表也没有在数据目录中创建新表。 此外,当我同时抓取这两个文件时,它们都会被添加。

日志文件提供以下信息:
信息:为表创建了值为 [[新文件名]] 的分区
BENCHMARK:完成写入目录

我尝试过使用和不使用“为每个 S3 路径创建一个模式”。 但是爬虫没有用新文件更新表。 很快我就会每天添加新文件来做我的分析。 任何解决方案?

在我看来,解决此问题的最佳方法是直接将 AWS DataBrew output 用于 Data Catalog。 Data Catalog 可以由爬虫或 DataBrew 直接更新,但推荐的做法是您使用这些机制中的任何一种,而不是同时使用这两种机制。

您可以尝试使用 output 作为您的数据目录运行该作业并让 Databrew 管理您的目录吗? 它应该使用正确的数据/文件更新您的目录表。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM