繁体 English 中英

AWS DMS CDC 到 S3 目标

[英]AWS DMS CDC to S3 target

原文 2019-07-24 16:55:53 5 2 amazon-s3/ cdc/ aws-dms

因此，我一直在研究使用数据迁移服务 Chance Data Capture 可以实现什么，将数据从 MSSQL 传输到 S3 以及 Redshift。

Redshift 测试很好，如果我删除源数据库中的一条记录，一两秒后该记录就会从 Redshift 中消失。 与插入/更新等相同。

但是 S3...您从第一次完整加载中获得原始记录。 然后，如果您更新源中的记录，S3 会收到记录的新副本，并标有“I”。
如果我删除一条记录，我会得到另一份标有“D”的记录。

所以我的问题是——我该如何处理这一切？ 我如何查询我的 S3 存储桶以查看我的数据集的“当前”state 是否反映了源数据库？

我是否必须自己编写一些代码来获取所有这些文件并处理它们，执行插入/更新和删除直到我最终解析回“正常”数据集？

欢迎任何见解！

2 个解决方案

包含“ I”，“ D”或“ U”的记录实际上是CDC数据（更改数据捕获）。 这有时被称为“历史”或“历史数据”。 这种类型的数据在数据仓库中有一些应用，也可以在许多机器学习用例中使用。

现在到下一点，为了获得数据集的“当前”状态，您必须自己编写脚本/编码。 您可以使用AWS Glue执行任务。 例如，这篇文章解释了类似的内容。

如果您不想维护粘合代码，那么一种捷径是不直接将s3目标与DMS一起使用，而是使用Redshift目标，并且一旦应用了所有CDC，就可以使用Redshift unload命令将最终副本卸载至S3。

如此处所解释的“I”、“U”和“D”的含义。

我们如何获取数据库的当前 state？ 一种替代方法是首先将此附加列也添加到完整加载文件中，即 CDC 之前的初始加载文件也应具有此附加列。 怎么样？ 现在查询athena中的数据，我们排除Op不在（“D”，“U”）或AR_H_OPERATION NOT IN（“DELETE”，“UPDATE”）中的记录。 因此，您得到了正确的计数（只有在该条目已经有 I 时才会出现“U”）。

SELECT count(*) FROM "database"."table_name" WHERE Op NOT IN ('D','U')

另外，要获取所有记录，您可以在雅典娜中尝试一些复杂的 sql，其中 Op 不在 ('D') 中，并在 Op IN = 'I' 时记录并计数 1，否则如果计数 2，则选择最新的一个或 Op = '你'。

AWS DMS 批量应用模式到 S3 目标

[英]AWS DMS Batch apply mode to S3 target

如何使用 AWS DMS 以 S3 作为目标保留列名？

[英]How to keep column names using AWS DMS with S3 as a target?

如何配置 AWS DMS 以将多个完整加载文件保存在同一个 s3 目标目标中？

[英]How to configure AWS DMS to keep multiple full load files in the same s3 target destination?

如何在 AWS-DMS 目标 S3 终端节点中使用 control-A 字符作为 csvDelimiter？

[英]How can I use control-A character as csvDelimiter in AWS-DMS Target S3 Endpoint?

AWS DMS - 如何将 RDS 表数据写入单个 S3 目标文件？

[英]AWS DMS - How to write to RDS table data to a single S3 target file?

AWS DMS Redshift 作为目标

[英]AWS DMS Redshift as target

带有CDC的AWS DMS到S3。如何处理行的更新和删除？

[英]AWS DMS with CDC to S3. How would it handle row updates and deletes?

使用 aws dms 跨账户同步 2 个 s3 桶

[英]Using aws dms to sync 2 s3 buckets cross account

将 DMS 连接到 S3

[英]Connecting DMS to S3

AWS DMS CDC 任务未检测列名称和类型更改

[英]AWS DMS CDC task does not detect column name and type changes

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 AWS DMS 批量应用模式到 S3 目标如何使用 AWS DMS 以 S3 作为目标保留列名？如何配置 AWS DMS 以将多个完整加载文件保存在同一个 s3 目标目标中？如何在 AWS-DMS 目标 S3 终端节点中使用 control-A 字符作为 csvDelimiter？ AWS DMS - 如何将 RDS 表数据写入单个 S3 目标文件？ AWS DMS Redshift 作为目标带有CDC的AWS DMS到S3。如何处理行的更新和删除？使用 aws dms 跨账户同步 2 个 s3 桶将 DMS 连接到 S3 AWS DMS CDC 任务未检测列名称和类型更改

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM