繁体 English 中英

Aws Glue Crawler 在第一次爬网后没有更新表

[英]Aws Glue Crawler is not updating the table after 1st crawl

原文 2021-08-13 16:24:48 9 1 amazon-web-services/ aws-glue-data-catalog

我正在添加一个由 Glue Databrew 在我的 S3 文件夹中创建的镶木地板格式的新文件。 新文件与前一个文件具有相同的架构。 但是当我第二次运行 Crawler 时，它既没有更新表也没有在数据目录中创建新表。 此外，当我同时抓取这两个文件时，它们都会被添加。

日志文件提供以下信息：
信息：为表创建了值为 [[新文件名]] 的分区
BENCHMARK：完成写入目录

我尝试过使用和不使用“为每个 S3 路径创建一个模式”。 但是爬虫没有用新文件更新表。 很快我就会每天添加新文件来做我的分析。 任何解决方案？

1 个解决方案

在我看来，解决此问题的最佳方法是直接将 AWS DataBrew output 用于 Data Catalog。 Data Catalog 可以由爬虫或 DataBrew 直接更新，但推荐的做法是您使用这些机制中的任何一种，而不是同时使用这两种机制。

您可以尝试使用 output 作为您的数据目录运行该作业并让 Databrew 管理您的目录吗？ 它应该使用正确的数据/文件更新您的目录表。

AWS Glue Crawler - 仅爬取新文件夹 - 内部服务异常

[英]AWS Glue Crawler - Crawl new folders only - Internal Service Exception

AWS Glue 爬虫问题

[英]AWS Glue Crawler issue

AWS Glue Crawler：想要 s3 中文件夹的单独表

[英]AWS Glue Crawler: want separate table for folder in s3

AWS Glue 可以爬取 Delta Lake 表数据吗？

[英]Can AWS Glue crawl Delta Lake table data?

aws 上胶水爬虫的更新时间表

[英]update schedule of a glue crawler on aws

AWS Glue 爬虫排除模式不起作用

[英]AWS Glue crawler exclude patterns not working

强制 Glue Crawler 使用预定义的 Glue Table

[英]Force Glue Crawler to use pre-defined Glue Table

AWS Glue Crawler 在没有 Glue Job 的情况下将所有数据发送到 Glue Catalog 和 Athena

[英]AWS Glue Crawler sends all data to Glue Catalog and Athena without Glue Job

由于 IAM 权限，无法运行 AWS Glue Crawler

[英]Unable to run AWS Glue Crawler due to IAM Permissions

AWS Glue Crawler 无法解析大文件（分类未知）

[英]AWS Glue Crawler cannot parse large files (classification UNKNOWN)

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 AWS Glue Crawler - 仅爬取新文件夹 - 内部服务异常 AWS Glue 爬虫问题 AWS Glue Crawler：想要 s3 中文件夹的单独表 AWS Glue 可以爬取 Delta Lake 表数据吗？ aws 上胶水爬虫的更新时间表 AWS Glue 爬虫排除模式不起作用强制 Glue Crawler 使用预定义的 Glue Table AWS Glue Crawler 在没有 Glue Job 的情况下将所有数据发送到 Glue Catalog 和 Athena 由于 IAM 权限，无法运行 AWS Glue Crawler AWS Glue Crawler 无法解析大文件（分类未知）

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM