[英]AWS Glue and Python Integration
我有一个存在于python中的数据规范化过程,但现在需要扩展。 当前,此过程通过特定于作业的配置文件运行,该配置文件包含需要应用于该作业的数据表的一系列转换功能。 转换功能是互斥的,可以按任何顺序应用。 所有转换功能都存在于库中,并且只有在特定于作业的配置文件中列出时,才导入并应用于数据。 不同的作业将在该作业的配置中列出不同的必需功能,但是所有功能将存在于库中。
从最一般的意义上讲,AWS Glue如何处理这样的过程? 我不需要一个技术示例,而只是一个高级概述。 只是想知道一些选择。 谢谢!
使用AWS粘合时,您需要考虑的最重要的一件事情就是带有扩展的无服务器基于 Spark 的环境。 这意味着您将需要使脚本适应pySpark风格。 如果可以,那么您可以按照AWS Glue文档中的说明使用外部python库
如果您已经在运行脚本,并且不想使用Spark,则可以随时考虑使用AWS Data Pipeline 。 这是一项服务,可以通过多种方式运行数据转换,而不仅仅是Spark。 不利的一面是,AWS Data Pipeline是任务驱动的,而不是数据驱动的,这意味着没有目录或架构管理。
阅读文档时,如果要在Python上使用AWS Data Pipeline并不明显,但是该过程基本上是将shell文件分段放置到S3中,并附有设置python环境和调用脚本的说明。 然后,您为管道配置调度,AWS会在需要时启动虚拟机,然后再停止。 您在stackoverflow上有一篇不错的文章
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.