繁体   English   中英

AWS Glue Crawler 在没有 Glue Job 的情况下将所有数据发送到 Glue Catalog 和 Athena

[英]AWS Glue Crawler sends all data to Glue Catalog and Athena without Glue Job

我刚接触 AWS Glue。 我正在使用 AWS Glue Crawler 从两个 S3 存储桶中抓取数据。 我在每个桶中有一个文件。 AWS Glue Crawler 在 AWS Glue 数据目录中创建了两个表,我还能够在 AWS Athena 中查询数据。

我的理解是为了在 Athena 中获取数据,我需要创建 Glue 作业,这将在 Athena 中提取数据,但我错了。 说 Glue 爬虫不需要 Glue 作业就将数据放在 Athena 中是否正确,如果我们需要将数据推送到数据库中,例如 SQL、Oracle 等,那么我们需要 Glue 作业吗?

我如何配置 Glue Crawler 使其只获取增量数据而不是始终从源存储桶中获取所有数据?

任何帮助表示赞赏?

Glue 爬虫仅用于识别您的数据所在的模式。您的数据位于某个地方(例如 S3),爬虫通过浏览一定百分比的文件来识别模式。

然后,您可以使用像 Athena(托管、无服务器 Apache Presto)这样的查询引擎来查询数据,因为它已经有一个模式。

如果你想处理/清理/聚合数据,你可以使用 Glue Jobs,它基本上是托管的无服务器 Spark。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM