繁体   English   中英

将不同来源的数据流式传输到 AWS S3

[英]Streaming Data From different Sources to AWS S3

我有不同的数据源,我需要将它们实时发布到 S3。 在将数据传送到 S3 存储桶之前,我还需要处理和验证数据。 我知道 AWS Kinesis Data Stream 提供实时数据流,我可以在将数据发送到 S3 之前使用 AWS lambda 处理数据。 但是,我不清楚我们可以使用 AWS Glue Streaming 代替 AWS Kinesis Data Stream 和 AWS Lambda 吗? 我看过一些关于使用 AWS Glue Streaming 动态处理实时数据并将它们发送到 S3 的文档。 那么,这里真正的区别是什么? AWS Glue Streaming ETL 是实时流式传输和处理数据并将其存储到 S3 中的好选择吗?

只要 lambda 执行环境限制足够,使用 lambda 消费者的 Kinesis 数据流将适合

  • 15分钟执行时间
  • 内存配置
  • 并发限制

与胶水消费者一起使用时,您的胶水作业可以运行更长时间并且还支持 Apache spark 进行大规模并行处理

您还可以使用具有本机集成的 Kinesis firehose 将数据传送到 S3、ElasticSearch 等...,这不需要对数据进行任何更改。 您还可以让 lambda 在使用 firehose 交付之前进行最少的处理拦截数据。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM