![](/img/trans.png)
[英]AWS Glue Crawler - Crawl new folders only - Internal Service Exception
[英]Aws Glue Crawler is not updating the table after 1st crawl
我正在添加一个由 Glue Databrew 在我的 S3 文件夹中创建的镶木地板格式的新文件。 新文件与前一个文件具有相同的架构。 但是当我第二次运行 Crawler 时,它既没有更新表也没有在数据目录中创建新表。 此外,当我同时抓取这两个文件时,它们都会被添加。
日志文件提供以下信息:
信息:为表创建了值为 [[新文件名]] 的分区
BENCHMARK:完成写入目录
我尝试过使用和不使用“为每个 S3 路径创建一个模式”。 但是爬虫没有用新文件更新表。 很快我就会每天添加新文件来做我的分析。 任何解决方案?
在我看来,解决此问题的最佳方法是直接将 AWS DataBrew output 用于 Data Catalog。 Data Catalog 可以由爬虫或 DataBrew 直接更新,但推荐的做法是您使用这些机制中的任何一种,而不是同时使用这两种机制。
您可以尝试使用 output 作为您的数据目录运行该作业并让 Databrew 管理您的目录吗? 它应该使用正确的数据/文件更新您的目录表。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.