繁体 English 中英

AWS 胶水作业 (Pyspark) 到 AWS 胶水数据目录

[英]AWS glue job (Pyspark) to AWS glue data catalog

原文 2022-06-02 13:04:18 7 3 amazon-web-services/ aws-glue/ aws-glue-data-catalog/ aws-glue-spark

我们知道，从pyspark脚本（aws glue job）写入AWS数据目录的过程是使用爬虫写入s3 bucket（eg.csv）并调度。

还有其他写入aws glue数据目录的方法吗？ 我正在寻找一种直接的方法来做到这一点。例如。 写入 s3 文件并同步到 aws glue 数据目录。

3 个解决方案

您可以手动指定表格。 爬虫只发现模式。 如果您手动设置架构，您应该能够在运行 AWS Glue 作业时读取您的数据。

我们的一位客户在 AWS S3 中拥有数百万个小文件，我们也遇到了同样的问题。 爬虫实际上会停止并且不会继续并继续无限运行。 我们提出了以下替代方法：

编写了一个自定义 Glue Python Shell 作业，该作业利用 AWS Wrangler 向 AWS Athena 发起查询。
Python Shell 作业将列出文件夹 s3:///event_date=<Put the Date Here from #2.1> 的内容
触发的查询：

alter table add partition (event_date='<event_date from above>',eventname='List derived from above S3 List output') 4. 这被触发以通过 Glue 工作流在主摄取作业后运行。

如果您不希望架构发生变化，请在使用 Glue 数据库和表手动创建表后直接使用 Glue 作业。

可重复使用的 AWS Glue 作业

[英]Reusable AWS Glue Job

AWS Glue 使用 CLI 安排作业

[英]AWS Glue Schedule a Job with Cli

aws glue cloudformation镶木地板工作

[英]aws glue cloudformation parquet job

是否可以在 AWS Glue 中重命名作业？

[英]Is it possilbe to rename a job in AWS Glue?

您能否在 AWS Glue 中使用 PySpark 而不是 Glue PySpark？

[英]Can you use PySpark instead of Glue PySpark in AWS Glue?

如何从不同的 AWS 区域为我的胶水作业检索数据？

[英]How to retrieve data from different AWS regions for my glue job?

AWS Glue 作业使用外部数据 REST API

[英]AWS Glue job consuming data from external REST API

AWS Glue 3.0 的铸造问题 - Pyspark

[英]Cast Issue with AWS Glue 3.0 - Pyspark

从 dynamodb 加载 dataframe - aws 胶水 pyspark

[英]Loading dataframe from dynamodb - aws glue pyspark

如何为 AWS 胶水工作使用额外的文件

[英]How to use extra files for AWS glue job

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 可重复使用的 AWS Glue 作业 AWS Glue 使用 CLI 安排作业 aws glue cloudformation镶木地板工作是否可以在 AWS Glue 中重命名作业？您能否在 AWS Glue 中使用 PySpark 而不是 Glue PySpark？如何从不同的 AWS 区域为我的胶水作业检索数据？ AWS Glue 作业使用外部数据 REST API AWS Glue 3.0 的铸造问题 - Pyspark 从 dynamodb 加载 dataframe - aws 胶水 pyspark 如何为 AWS 胶水工作使用额外的文件

相关标签

AWS 胶水作业 (Pyspark) 到 AWS 胶水数据目录

问题描述

3 个解决方案

解决方案1
0 2022-07-07 20:19:07

解决方案2
0 2022-09-02 08:18:17

解决方案3
0 2022-11-28 13:01:52

AWS 胶水作业 (Pyspark) 到 AWS 胶水数据目录

问题描述

3 个解决方案

解决方案1 0 2022-07-07 20:19:07

解决方案2 0 2022-09-02 08:18:17

解决方案3 0 2022-11-28 13:01:52

解决方案1
0 2022-07-07 20:19:07

解决方案2
0 2022-09-02 08:18:17

解决方案3
0 2022-11-28 13:01:52