繁体 English 中英

使用kinesis流和firehose对流数据进行排序

[英]Ordering of streaming data with kinesis stream and firehose

原文 2017-04-04 09:06:55 1 1 amazon-web-services/ amazon-s3/ aws-lambda/ amazon-kinesis/ amazon-kinesis-firehose

我目前的项目存在架构困境，即近实时处理大量数据。 所以这是当前架构的图表：

以下是我的想法的解释，这让我想到了这张照片：

当API网关收到一个请求时，它被放入流中（这是因为我的应用程序的性质 - “火与忘记”）这就是我得出的结论。输入数据根据特定请求在分片中分离属性，保证我正确的顺序。

然后我有一个lambda，它关心验证输入和异常检测。 因此，它是一种抽象，可以保持下一层数据的清洁 - 数据丰富。 所以这个lambda将数据发送到kinesis firehose，因为它可以备份“原始”数据（我绝对想要的东西），还附加一个转换lambda，它将进行浓缩 - 所以我不关心保存数据在S3中，它将开箱即用。 所以一切都很好，直到我需要保存的接收数据排序（富集程序正在进行会话化），这在firehose中丢失，因为在kinesis流中没有数据分离。

所以我唯一能想到的就是 - 在第一个lambda中移动sissionization，这将破坏我的抽象，因为它将开始关注数据丰富，更大的缺点是备份数据将丰富其中的数据，也打破了架构。 所有这一切都在发生，因为在消防中缺少分片概念。

那么有人可以想到解决这个问题而不会失去aws为我们提供的开箱即用功能吗？

1 个解决方案

我认为会话化和数据丰富是两种不同的抽象，需要在lambda之间进行分割。

会话是受目的或任务限制的时间限制，严格排序的事件流。 您只在第一个lambda阶段（来自kinesis流分类）拥有该信息，并且应该在源处标记具有会话上下文的流并且可以限制会话。

如果在备份中存储会话信息是一个问题，则可能是会话的定义没有很好地指定或者需要重新定义。 如果会话将来重新进行，则可以忽略已经计算的会话数据，只要有足够的详细信息记录了足够的额外数据以告知可能会话的不可预测的未来概念。

提供业务上下文（也称为外部可识别数据）的附加富集应在先前记录的边界内以事务方式处理会话。

如果会话在业务级别不是事务性的，则会话的定义超出或低于指定。 如果是这种情况，您就不在流处理业务和批处理中，您需要将状态扩展到可能的同时交错会话的数量及其最大持续时间 - 查询整个事件语料库以支持会话希望可以控制的持续时间。

关于 Kinesis Firehose 数据 stream 到 AWS Lambda

[英]Regarding KInesis Firehose data stream to AWS Lambda

Kinesis Data Firehose 源“Direct PUT”与“Kinesis Data Stream”

[英]Kinesis Data Firehose source `Direct PUT` vs `Kinesis Data Stream`

AWS：在不同账户中使用 Kinesis Firehose 读取 Kinesis Stream 数据

[英]AWS: reading Kinesis Stream data using Kinesis Firehose in a different account

从Python向AWS Kinesis Firehose流数据的问题

[英]Issues with streaming data to AWS Kinesis Firehose from Python

使用Kinesis Firehose将数据从SQL Server流传输到Redshift

[英]Stream Data from SQL Server into Redshift with Kinesis Firehose

如何在不通过 Kinesis Data 的情况下直接将 KPL（Kinesis Producer Library）集成到 Kinesis firehose Stream

[英]How to integrate KPL (Kinesis Producer Library) to Kinesis firehose directly without going through Kinesis Data Stream

Firehose、管道、数据流的 Kinesis 服务有什么区别/用例

[英]What is the difference/use case for Kinesis services of Firehose, pipeline, data stream

kinesis firehose stream 数据如何自我管理 elasticsearch？

[英]How does kinesis firehose stream data to self managed elasticsearch?

Kinesis Stream和Kinesis Firehose更新Elasticsearch索引

[英]Kinesis Stream and Kinesis Firehose Updating Elasticsearch Indexes

汽车线路运动流到kinesis firehose？

[英]Auto wire kinesis stream to kinesis firehose?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 关于 Kinesis Firehose 数据 stream 到 AWS Lambda Kinesis Data Firehose 源“Direct PUT”与“Kinesis Data Stream” AWS：在不同账户中使用 Kinesis Firehose 读取 Kinesis Stream 数据从Python向AWS Kinesis Firehose流数据的问题使用Kinesis Firehose将数据从SQL Server流传输到Redshift 如何在不通过 Kinesis Data 的情况下直接将 KPL（Kinesis Producer Library）集成到 Kinesis firehose Stream Firehose、管道、数据流的 Kinesis 服务有什么区别/用例 kinesis firehose stream 数据如何自我管理 elasticsearch？ Kinesis Stream和Kinesis Firehose更新Elasticsearch索引汽车线路运动流到kinesis firehose？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM