繁体   English   中英

AWS 胶水作业 (Pyspark) 到 AWS 胶水数据目录

[英]AWS glue job (Pyspark) to AWS glue data catalog

我们知道,从pyspark脚本(aws glue job)写入AWS数据目录的过程是使用爬虫写入s3 bucket(eg.csv)并调度。

还有其他写入aws glue数据目录的方法吗? 我正在寻找一种直接的方法来做到这一点。例如。 写入 s3 文件并同步到 aws glue 数据目录。

您可以手动指定表格。 爬虫只发现模式。 如果您手动设置架构,您应该能够在运行 AWS Glue 作业时读取您的数据。

我们的一位客户在 AWS S3 中拥有数百万个小文件,我们也遇到了同样的问题。 爬虫实际上会停止并且不会继续并继续无限运行。 我们提出了以下替代方法:

  1. 编写了一个自定义 Glue Python Shell 作业,该作业利用 AWS Wrangler 向 AWS Athena 发起查询。
  2. Python Shell 作业将列出文件夹 s3:///event_date=<Put the Date Here from #2.1> 的内容
  3. 触发的查询:

alter table add partition (event_date='<event_date from above>',eventname='List derived from above S3 List output') 4. 这被触发以通过 Glue 工作流在主摄取作业后运行。

如果您不希望架构发生变化,请在使用 Glue 数据库和表手动创建表后直接使用 Glue 作业。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM