繁体 English 中英

AWS Glue和Python集成

[英]AWS Glue and Python Integration

原文 2019-02-27 00:54:25 5 1 python/ amazon-web-services/ aws-glue

我有一个存在于python中的数据规范化过程，但现在需要扩展。 当前，此过程通过特定于作业的配置文件运行，该配置文件包含需要应用于该作业的数据表的一系列转换功能。 转换功能是互斥的，可以按任何顺序应用。 所有转换功能都存在于库中，并且只有在特定于作业的配置文件中列出时，才导入并应用于数据。 不同的作业将在该作业的配置中列出不同的必需功能，但是所有功能将存在于库中。

从最一般的意义上讲，AWS Glue如何处理这样的过程？ 我不需要一个技术示例，而只是一个高级概述。 只是想知道一些选择。 谢谢！

1 个解决方案

使用AWS粘合时，您需要考虑的最重要的一件事情就是带有扩展的无服务器基于 Spark 的环境。 这意味着您将需要使脚本适应pySpark风格。 如果可以，那么您可以按照AWS Glue文档中的说明使用外部python库

如果您已经在运行脚本，并且不想使用Spark，则可以随时考虑使用AWS Data Pipeline 。 这是一项服务，可以通过多种方式运行数据转换，而不仅仅是Spark。 不利的一面是，AWS Data Pipeline是任务驱动的，而不是数据驱动的，这意味着没有目录或架构管理。

阅读文档时，如果要在Python上使用AWS Data Pipeline并不明显，但是该过程基本上是将shell文件分段放置到S3中，并附有设置python环境和调用脚本的说明。 然后，您为管道配置调度，AWS会在需要时启动虚拟机，然后再停止。 您在stackoverflow上有一篇不错的文章