繁体   English   中英

如何使用流处理进行 ETL

[英]How to ETL using stream processing

我有一个 SQL 服务器数据库,每天有数百万行(插入/删除/更新)。 我应该提出一个 ETL 解决方案来将数据从这个数据库传输到数据仓库。 起初我尝试与 CDC 和 SSIS 合作,但我工作的公司想要一个更实时的解决方案。 我做了一些研究并发现了流处理。 我还寻找了 Spark 和 Flink 教程,但没有找到任何东西。

我的问题是我选择哪种流处理工具? 我如何学会使用它?

开源解决方案您可以使用 Confluent Kafka 集成工具来跟踪使用加载时间戳的插入和更新操作。 这些将自动为您提供在数据库中插入或更新的实时数据。 如果您的数据库中有软删除,也可以使用加载时间戳和活动或非活动标志进行跟踪。 如果没有这样的标志,那么您需要提供一些关于当天哪个分区可能会更新的逻辑,并将整个分区发送到绝对资源耗尽的流中。

付费解决方案有一个名为Striim CDC的付费工具,它可以为您的系统提供实时响应

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM