繁体   English   中英

如何在AWS中使用S3数据运行python脚本

[英]How to run python script using S3 data in AWS

我在S3中有一个CSV文件。 我想使用S3中存在的数据运行python脚本。 S3文件每周更改一次。 我需要将输入参数传递给我的python脚本,该脚本将S3文件加载到Pandas中并进行一些计算以返回结果。

目前,我正在服务器中使用Boto3为每个输入参数加载此S3文件。 这个过程需要更多的时间来返回结果,而我的nginx却返回了504网关超时。

我期望某些AWS服务可以在云中完成此任务。 谁能指出正确的方向,哪种AWS服务适合在这里使用

您有几种选择:

  1. 使用AWS Lambda,但是Lambda具有有限的本地存储(500mb)和内存(3gb),运行时间为15。
  2. 自从您提到Pandas以来,我建议您使用具有以下功能的AWS Glue:
    • 检测新文件
    • 大内存,支持CPU
    • 可视数据流
    • 支持Spark DF
    • 能够从CSV文件中查询数据
    • 连接到不同的数据库引擎。

当前,我们将AWS Glue用于数据解析器流程

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM