我正在尝试在 AWS 中设置数据管道,希望使用无服务器和托管服务。 但是,其中一个步骤需要大量内存 (120GB),无法将其分解成更小的块。 理想情况下,我也会将这些步骤作为容器运行,因为包要求有点奇特。 到目前为止,似乎 AWS Glue 和 MWAA 都无法处理超过 32GB 的内存。 处理它 ...
我正在尝试在 AWS 中设置数据管道,希望使用无服务器和托管服务。 但是,其中一个步骤需要大量内存 (120GB),无法将其分解成更小的块。 理想情况下,我也会将这些步骤作为容器运行,因为包要求有点奇特。 到目前为止,似乎 AWS Glue 和 MWAA 都无法处理超过 32GB 的内存。 处理它 ...
AWS CLI 文档没有启动/停止数据管道中特定活动的命令? set-status和set-task-status是否用于此目的? ...
当我导航到 aws datapipeline 控制台时,它会显示此横幅, 请注意,Data Pipeline 服务处于维护模式,我们不打算将服务扩展到新区域。 我们计划在 2023 年 2 月 28 日之前取消控制台访问权限。 aws datapipeline 服务会在不久的将来消失吗? ...
我试图找到在 AWS 中处理文件的最有效方法。 从 S3 存储桶中读取 json、xml、csv 将其映射到另一种类型的 json、xml、csv 将其保存到 S3 存储桶现在我们将 Java 与 AWS lambda 一起使用,但我们编写了很多代码。 AWS Data Glue 看起来不错,但我 ...
在进行转换后需要将数据从一个 dynamodb 表移动到另一个表最好的方法是什么我是否需要编写脚本从一个表中读取选择性数据并放入另一个表中或者我需要按照 CSV 出口 ...
我编写了一些 CDK 代码以编程方式创建一个数据管道,该管道每天将 DynamoDB 表备份到 S3 存储桶中。 但它一直遇到这个错误: 我正在为这个具有 S3:* 权限的数据管道使用DataPipelineDefaultResourceRole和DataPipelineDefaultRole ,所 ...
我已经运行了一个数据管道,之前是手动创建的,现在我想使用 CDK 代码来管理它。 我该怎么做? (使用 aws cdk typescript 库查找/导入此数据管道并进行管理) 例如,在 AWS SNS 中,我们可以使用fromTopicArn导入现有主题。 但是我已经浏览了数据管道的 CDK 库 ...
我基本上按照本教程设置了一个简单的 DataPipeline 来将我的 DynamoDB 表导出到 S3。 But whenever I tried to run it, it keeps throwing Details:Exception in thread "main" org.apach ...
我需要从数据管道向我的 ec2 实例附加一个额外的 EBS 卷。 我认为当前数据管道服务不支持指定 ebs 卷以附加到 ec2 资源的选项。 有没有办法使用数据管道做到这一点? ...
我有一个 dynamodb 表,需要每 24 小时使用数据管道将其导出到 s3 存储桶。 这将反过来被 sparkjob 用来查询数据。 问题是,每当我设置数据管道来执行此活动时,s3 中的输出都是多个分区文件。 有没有办法确保整个表在 s3 中导出为单个文件? 如果没有,spark 有没有办法 ...
我正在尝试使用 AWS Data Pipeline 从 S3 获取数据到 Dynamodb。 我面临的问题是我的“数据管道”没有显示 EC2 实例角色,即使我在 IAM 中创建了一个。 我为 Pipeline 和 EC2 创建了默认角色。 您可以在图片中看到 Pipeline Role 正在 ...
我已经基于将 dynamodb 表导出到 S3 的模板准备了数据管道(在 eu-west-1 区域)。 我的表位于 eu-north-1 区域,但是将其放在参数 myDDBRegion 下时,出现以下错误: 这是不支持从中导出数据的区域吗? 如果是这样,我如何完成从这个表中导出数据? ...
我需要读取上传到 s3 存储桶的 csv 批处理文件,加密某些列中的数据并将这些数据保存在 Dynamo DB 表中。 在保留 DynamoDB 表中的每一行时,根据每行中的数据,我需要生成一个 ID 并将其也存储在 DynamoDB 表中。 似乎 AWS 数据管道允许创建将 S3 存储桶文件导入 ...
同时以 csv 格式将整个表从 RDS 提取到 s3。 Header 列不包括在内。 我们应该选择什么选项在 csv 文件中包含 Header 行。 ...
我的 DynamoDB 表有大约 1 亿 (30GB) 个项目,我为它预置了 10k RCU。 我正在使用数据管道作业来导出数据。 DataPipeline 读取吞吐量比设置为 0.9。 如何计算完成导出的时间(管道需要 4 多个小时才能完成导出) 我该如何优化它,以便在更短的时间内完成导出。 读 ...
我正在尝试创建数据管道以备份 DynamoDB。 我也遵循了以下文档。 https://docs.aws.amazon.com/amazondynamodb/latest/developerguide/DynamoDBPipeline.html 不过,我收到如下错误。 DataPipelineD ...
我正在尝试从 DynamoDB 表中导出过去 15 天的数据,但不幸的是,时间点恢复未激活。 所以我不能使用新的 DynamoDB 导出到 S3 功能,因为它不具有追溯性。 我曾尝试使用 AWS Data Pipeline 将 DynamoDB 数据导出到 S3,但它可以追溯吗? 如果是这样,我已 ...
我正在调用 REST API 来获取源数据,即 JSON 并且文件大小约为 1GB。 我想使用分页概念。 我在此链接中看到https://docs.microsoft.com/en-us/answers/questions/59467/how-to-pass-pagination-rules-du ...
我计划使用数据管道作为 DynamoDB 的备份和恢复工具。 我们将使用亚马逊的预建管道备份到 s3,并使用预建的恢复管道在发生灾难时恢复到新表。 出于法律和合规原因,这也将用于数据存档的双重目的。 我们已经探索过快照,但与 s3 相比,这可能会变得相当昂贵。 有人估计备份 1TB 数据库需要多长 ...
我们有一个数据管道,它每晚将 DynamoDB 复制到 S3 存储桶,因此我们可以使用 Athena 运行数据报告。 有时,管道会因 503 SlowDown 错误而失败。 重试通常会“成功”,但会在 S3 中创建大量重复记录。 DynamoDB 具有按需读取容量,管道具有 0.5 myDDBRe ...