繁体   English   中英

AWS Data Pipeline Dynamo 到 Redshift

[英]AWS Data Pipeline Dynamo to Redshift

我有一个问题:我需要将数据从 DynamoDB 迁移到 Redshift。 问题是我收到这样的异常:

错误:不支持的数据类型:当前版本仅支持字符串和数字详细信息:------------------------ ------------ 错误:不支持的数据类型:当前版本仅支持字符串和数字代码:9005 上下文:表名 = user_session 查询:446027 位置:copy_dynamodb_scanner.cpp:199 进程:query0_124_446027 [pid= 25424] ------------------------------------------------------------

在我的 Dynamo 项目中,我有 boolean 字段。 如何将字段从 Boolean 修改为 INT(例如)? 我尝试用作 VARCHAR(5),但没有帮助(因此它在 Github 中的一张票没有响应)

将不胜感激任何建议。

作为解决方案,我先将数据从 DynamoDB 迁移到 S3,然后再迁移到 Redshift。

  1. 我在 DynamoDB 中使用了 Exports to S3内置功能。 它将所有数据作为 *.json 文件快速保存到 S3 中(但未排序)。
  2. 之后我使用 ETL 脚本,使用 Glue Job 和自定义脚本与 pyspark 处理数据并将其保存到 Redshift。

也可以使用 Glue 爬虫来定义模式,但仍需要验证其结果,因为有时它不正确。

如果您不使用 ONDEMAND 读/写,则使用爬虫直接解析 DynamoDB 会过度使用您的表。 所以更好的方法是使用来自 S3 的数据来做到这一点。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM