繁体   English   中英

AWS Glue和Python集成

[英]AWS Glue and Python Integration

我有一个存在于python中的数据规范化过程,但现在需要扩展。 当前,此过程通过特定于作业的配置文件运行,该配置文件包含需要应用于该作业的数据表的一系列转换功能。 转换功能是互斥的,可以按任何顺序应用。 所有转换功能都存在于库中,并且只有在特定于作业的配置文件中列出时,才导入并应用于数据。 不同的作业将在该作业的配置中列出不同的必需功能,但是所有功能将存在于库中。

从最一般的意义上讲,AWS Glue如何处理这样的过程? 我不需要一个技术示例,而只是一个高级概述。 只是想知道一些选择。 谢谢!

使用AWS粘合时,您需要考虑的最重要的一件事情就是带有扩展的无服务器基于 Spark 环境。 这意味着您将需要使脚本适应pySpark风格。 如果可以,那么您可以按照AWS Glue文档中的说明使用外部python库

如果您已经在运行脚本,并且不想使用Spark,则可以随时考虑使用AWS Data Pipeline 这是一项服务,可以通过多种方式运行数据转换,而不仅仅是Spark。 不利的一面是,AWS Data Pipeline是任务驱动的,而不是数据驱动的,这意味着没有目录或架构管理。

阅读文档时,如果要在Python上使用AWS Data Pipeline并不明显,但是该过程基本上是将shell文件分段放置到S3中,并附有设置python环境和调用脚本的说明。 然后,您为管道配置调度,AWS会在需要时启动虚拟机,然后再停止。 在stackoverflow上有一篇不错的文章

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM