繁体 English 中英

AWS Glue Crawler 在没有 Glue Job 的情况下将所有数据发送到 Glue Catalog 和 Athena

[英]AWS Glue Crawler sends all data to Glue Catalog and Athena without Glue Job

原文 2021-10-08 14:50:54 3 1 amazon-web-services/ aws-glue/ aws-glue-data-catalog

我刚接触 AWS Glue。 我正在使用 AWS Glue Crawler 从两个 S3 存储桶中抓取数据。 我在每个桶中有一个文件。 AWS Glue Crawler 在 AWS Glue 数据目录中创建了两个表，我还能够在 AWS Athena 中查询数据。

我的理解是为了在 Athena 中获取数据，我需要创建 Glue 作业，这将在 Athena 中提取数据，但我错了。 说 Glue 爬虫不需要 Glue 作业就将数据放在 Athena 中是否正确，如果我们需要将数据推送到数据库中，例如 SQL、Oracle 等，那么我们需要 Glue 作业吗？

我如何配置 Glue Crawler 使其只获取增量数据而不是始终从源存储桶中获取所有数据？

任何帮助表示赞赏？

1 个解决方案

Glue 爬虫仅用于识别您的数据所在的模式。您的数据位于某个地方（例如 S3），爬虫通过浏览一定百分比的文件来识别模式。

然后，您可以使用像 Athena（托管、无服务器 Apache Presto）这样的查询引擎来查询数据，因为它已经有一个模式。

如果你想处理/清理/聚合数据，你可以使用 Glue Jobs，它基本上是托管的无服务器 Spark。

AWS 胶水作业 (Pyspark) 到 AWS 胶水数据目录

[英]AWS glue job (Pyspark) to AWS glue data catalog

亚马逊雅典娜可以在没有胶水目录的情况下工作吗？

[英]Can amazon Athena work without Glue catalog?

通过 Athena 创建 Glue 数据目录 SDK

[英]Create Glue data catalog via Athena SDK

将 AWS Sagemaker 连接到 AWS Glue 数据目录 - Glue DevEndpoint

[英]connect AWS Sagemaker to AWS Glue Data catalog - Glue DevEndpoint

AWS Glue 爬虫问题

[英]AWS Glue Crawler issue

可重复使用的 AWS Glue 作业

[英]Reusable AWS Glue Job

AWS Glue 作业书签

[英]AWS Glue Job Bookmarking

如何创建 Athena 堆栈并使用 Glue Data 目录？

[英]How to create an Athena stack and consume Glue Data catalog?

aws 上胶水爬虫的更新时间表

[英]update schedule of a glue crawler on aws

AWS Glue 使用 CLI 安排作业

[英]AWS Glue Schedule a Job with Cli

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 AWS 胶水作业 (Pyspark) 到 AWS 胶水数据目录亚马逊雅典娜可以在没有胶水目录的情况下工作吗？通过 Athena 创建 Glue 数据目录 SDK 将 AWS Sagemaker 连接到 AWS Glue 数据目录 - Glue DevEndpoint AWS Glue 爬虫问题可重复使用的 AWS Glue 作业 AWS Glue 作业书签如何创建 Athena 堆栈并使用 Glue Data 目录？ aws 上胶水爬虫的更新时间表 AWS Glue 使用 CLI 安排作业

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM