标签[amazon-data-pipeline] - 堆栈内存溢出

用于高内存的 AWS 数据管道（胶水、MWAA、步函数） - Data pipelines om AWS for high mem (glue, MWAA, step funktions)

我正在尝试在 AWS 中设置数据管道，希望使用无服务器和托管服务。但是，其中一个步骤需要大量内存 (120GB)，无法将其分解成更小的块。理想情况下，我也会将这些步骤作为容器运行，因为包要求有点奇特。到目前为止，似乎 AWS Glue 和 MWAA 都无法处理超过 32GB 的内存。处理它 ...

如何从 CLI 或 API 启动、停止 aws 数据管道的活动/步骤？ - How to start, stop activities/steps of aws data pipeline from CLI or API?

AWS CLI 文档没有启动/停止数据管道中特定活动的命令？ set-status和set-task-status是否用于此目的？ ...

aws datapipeline 服务是否被弃用？ - Is aws datapipeline service being deprecated?

当我导航到 aws datapipeline 控制台时，它会显示此横幅，请注意，Data Pipeline 服务处于维护模式，我们不打算将服务扩展到新区域。我们计划在 2023 年 2 月 28 日之前取消控制台访问权限。 aws datapipeline 服务会在不久的将来消失吗？ ...

AWS 中的文件转换 - File conversion in AWS

我试图找到在 AWS 中处理文件的最有效方法。从 S3 存储桶中读取 json、xml、csv 将其映射到另一种类型的 json、xml、csv 将其保存到 S3 存储桶现在我们将 Java 与 AWS lambda 一起使用，但我们编写了很多代码。 AWS Data Glue 看起来不错，但我 ...

将选择性数据从一个 dynamodb 表导出到同一区域中的另一个表的选项 - Options to export selective data from one dynamodb table to another table in same region

在进行转换后需要将数据从一个 dynamodb 表移动到另一个表最好的方法是什么我是否需要编写脚本从一个表中读取选择性数据并放入另一个表中或者我需要按照 CSV 出口 ...

由于 ListObjectsV2 操作无法运行 AWS Data Pipeline 作业：拒绝访问 - Cannot run AWS Data Pipeline job due to ListObjectsV2 operation: Access Denied

我编写了一些 CDK 代码以编程方式创建一个数据管道，该管道每天将 DynamoDB 表备份到 S3 存储桶中。但它一直遇到这个错误：我正在为这个具有 S3:* 权限的数据管道使用DataPipelineDefaultResourceRole和DataPipelineDefaultRole ，所 ...

AWS CDK DataPipeline 如何导入现有数据管道 - AWS CDK DataPipeline how to import an existing data pipeline

我已经运行了一个数据管道，之前是手动创建的，现在我想使用 CDK 代码来管理它。我该怎么做？（使用 aws cdk typescript 库查找/导入此数据管道并进行管理）例如，在 AWS SNS 中，我们可以使用fromTopicArn导入现有主题。但是我已经浏览了数据管道的 CDK 库 ...

AWS Data Pipeline 不断遇到 FileAlreadyExistsException - AWS Data Pipeline keeps running into FileAlreadyExistsException

我基本上按照本教程设置了一个简单的 DataPipeline 来将我的 DynamoDB 表导出到 S3。 But whenever I tried to run it, it keeps throwing Details:Exception in thread "main" org.apach ...

如何从 Data Pipeline 将额外的 EBS 卷附加到 EC2？ - How can I attaching an additional EBS volume to EC2 from Data Pipeline?

我需要从数据管道向我的 ec2 实例附加一个额外的 EBS 卷。我认为当前数据管道服务不支持指定 ebs 卷以附加到 ec2 资源的选项。有没有办法使用数据管道做到这一点？ ...

如何将 dynamodb 作为单个文件导出到 s3？ - How to export dynamodb to s3 as a single file?

我有一个 dynamodb 表，需要每 24 小时使用数据管道将其导出到 s3 存储桶。这将反过来被 sparkjob 用来查询数据。问题是，每当我设置数据管道来执行此活动时，s3 中的输出都是多个分区文件。有没有办法确保整个表在 s3 中导出为单个文件？如果没有，spark 有没有办法 ...

AWS Data Pipeline 未显示 EC2 实例角色 - AWS Data Pipeline didn't showing EC2 instance role

我正在尝试使用 AWS Data Pipeline 从 S3 获取数据到 Dynamodb。我面临的问题是我的“数据管道”没有显示 EC2 实例角色，即使我在 IAM 中创建了一个。我为 Pipeline 和 EC2 创建了默认角色。您可以在图片中看到 Pipeline Role 正在 ...

使用数据管道的 AWS dynamodb 导出不适用于 eu-north-1？ - AWS dynamodb export using data pipeline not working for eu-north-1?

我已经基于将 dynamodb 表导出到 S3 的模板准备了数据管道（在 eu-west-1 区域）。我的表位于 eu-north-1 区域，但是将其放在参数 myDDBRegion 下时，出现以下错误：这是不支持从中导出数据的区域吗？如果是这样，我如何完成从这个表中导出数据？ ...

使用 Data Pipeline 在 AWS 中进行批处理文件 - Batch file processing in AWS using Data Pipeline

我需要读取上传到 s3 存储桶的 csv 批处理文件，加密某些列中的数据并将这些数据保存在 Dynamo DB 表中。在保留 DynamoDB 表中的每一行时，根据每行中的数据，我需要生成一个 ID 并将其也存储在 DynamoDB 表中。似乎 AWS 数据管道允许创建将 S3 存储桶文件导入 ...

在数据管道 AWS 服务中将表作为 csv 提取到 s3 时包括 header 行 - Include header row while extracting the table as csv to s3 in data pipeline AWS service

同时以 csv 格式将整个表从 RDS 提取到 s3。 Header 列不包括在内。我们应该选择什么选项在 csv 文件中包含 Header 行。 ...

估计通过 Data Pipeline 导出 DynamoDB 数据的持续时间 - Estimate duration of DynamoDB data export via Data Pipeline

我的 DynamoDB 表有大约 1 亿 (30GB) 个项目，我为它预置了 10k RCU。我正在使用数据管道作业来导出数据。 DataPipeline 读取吞吐量比设置为 0.9。如何计算完成导出的时间（管道需要 4 多个小时才能完成导出）我该如何优化它，以便在更短的时间内完成导出。读 ...

错误：无法验证实例配置文件“DataPipelineDefaultResourceRole”，因为不存在具有该名称的角色 - ERROR: Unable to validate instance profile 'DataPipelineDefaultResourceRole' because no role exists with that name

我正在尝试创建数据管道以备份 DynamoDB。我也遵循了以下文档。 https://docs.aws.amazon.com/amazondynamodb/latest/developerguide/DynamoDBPipeline.html 不过，我收到如下错误。 DataPipelineD ...

如何在没有时间点恢复的情况下导出 DynamoDB 表数据？ - How to export DynamoDB table data without the point in time recovery?

我正在尝试从 DynamoDB 表中导出过去 15 天的数据，但不幸的是，时间点恢复未激活。所以我不能使用新的 DynamoDB 导出到 S3 功能，因为它不具有追溯性。我曾尝试使用 AWS Data Pipeline 将 DynamoDB 数据导出到 S3，但它可以追溯吗？如果是这样，我已 ...

如何使用 Azure 数据工厂中的 Web 活动来统计源数据中的总页数？ - How to use Web activity in Azure Data Factory to count the total number of pages in source data?

我正在调用 REST API 来获取源数据，即 JSON 并且文件大小约为 1GB。我想使用分页概念。我在此链接中看到https://docs.microsoft.com/en-us/answers/questions/59467/how-to-pass-pagination-rules-du ...

使用数据管道进行 DynamoDB 备份和恢复。备份和恢复需要多长时间？ - DynamoDB backup and restore using Data pipelines. How long does it take to backup and recover?

我计划使用数据管道作为 DynamoDB 的备份和恢复工具。我们将使用亚马逊的预建管道备份到 s3，并使用预建的恢复管道在发生灾难时恢复到新表。出于法律和合规原因，这也将用于数据存档的双重目的。我们已经探索过快照，但与 s3 相比，这可能会变得相当昂贵。有人估计备份 1TB 数据库需要多长 ...

AWS 数据管道 DynamoDB 到 S3 503 减速错误 - AWS Data Pipeline DynamoDB to S3 503 SlowDown Error

我们有一个数据管道，它每晚将 DynamoDB 复制到 S3 存储桶，因此我们可以使用 Athena 运行数据报告。有时，管道会因 503 SlowDown 错误而失败。重试通常会“成功”，但会在 S3 中创建大量重复记录。 DynamoDB 具有按需读取容量，管道具有 0.5 myDDBRe ...