繁体 English 中英

以 Kinesis Firehose output 格式将 DynamoDB 数据传输到 S3

[英]DynamoDB data to S3 in Kinesis Firehose output format

原文 2022-02-03 07:25:07 8 1 amazon-s3/ aws-glue/ amazon-athena/ amazon-kinesis-firehose

Kinesis data firehose 有一种默认格式，可以将文件添加到 S3 存储桶中的单独分区，如下所示： s3://bucket/prefix/yyyy/MM/dd/HH/file.extension

我创建了事件流以使用 Firehose 将数据从 DynamoDB 转储到 S3。 中间有一个转换 lambda 将 DDB 记录转换为 TSV 格式（制表符分隔）。
所有这些都添加到已经包含大量数据的现有表中。 我需要将现有数据从 DynamoDB 回填到 S3 存储桶，以保持格式与现有 Firehose output 样式的奇偶校验。

我试过的解决方案：
第 1 步：使用 DDB 导出功能将表导出到 S3。 使用 Glue 爬虫创建数据目录表。
第 2 步：使用 Athena 的CREATE TABLE AS SELECT Query 来模仿由中间 Lambda 完成的转换并将该 Output 存储到 S3 位置。
第 3 步：但是，Athena CTAS 应用无法取消的默认压缩。 所以我写了一个 Glue Job，它从上一个表中读取并写入另一个 S3 位置。 该作业还负责添加基于年/月/日/小时的分区，就像使用 Firehose 的格式一样，并写入解压缩的 S3 制表符分隔格式文件。

但是，问题在于 Glue 创建的 Hive 样式分区如下所示： s3://bucket/prefix/year=2021/month=02/day=02/ 。 我需要改为匹配流水块样式的 S3 分区。 我正在寻找一种方法来帮助实现这一目标。 找不到使用 Glue 添加块样式分区的方法。 我的另一种方法是，使用 AWS CLI S3 mv命令将所有这些数据移动到具有正确文件名的单独文件夹中，该文件名不干净且未优化。

1 个解决方案

离开我最终在这里实施的解决方案，以防它对任何人有帮助。

我创建了一个 Lambda 并在此存储桶上添加了 S3 事件触发器。 Lambda 完成了将文件从 Hive 式分区 S3 文件夹移动到结构正确的块式 S3 文件夹的工作。

Lambda 使用从 boto3 s3Client 复制和删除 function 来实现相同的目的。 它就像一个魅力，即使我喜欢 > 10^6 output 文件拆分到不同的分区。

Kinesis Firehose 将数据从 DynamoDB Steam 传输到 S3：为什么文件中的 JSON 个对象数量不同？

[英]Kinesis Firehose delivers data from DynamoDB Steam to S3: Why the numbers of JSON objects in files is different?

读取 Amazon Kinesis Firehose 写入 s3 的数据 stream

[英]Reading the data written to s3 by Amazon Kinesis Firehose stream

使用来自 Kinesis Data Stream 源的 Kinesis Firehose Delivery Stream 将数据写入 S3 时出现问题

[英]Problem writing data to S3 with Kinesis Firehose Delivery Stream from Kinesis Data Stream source

Kinesis firehose 写入 S3 但访问被拒绝

[英]Kinesis firehose writes to S3 but access denied

Kinesis Firehose 将 JSON 个对象放入 S3 中，没有分隔符逗号

[英]Kinesis Firehose putting JSON objects in S3 without seperator comma

按事件时间对 Kinesis firehose S3 记录进行分区

[英]Partition Kinesis firehose S3 records by event time

AWS Kinesis Data Firehose 和 Lambda

[英]AWS Kinesis Data Firehose and Lambda

无法触发由 Kinesis Firehose 传输流创建的 S3 对象上的事件

[英]Unable to trigger event on S3 object created by Kinesis Firehose delivery stream

Kinesis Firehose 写入 S3 云监视订阅过滤器，但文件不可读

[英]Kinesis Firehose writes to S3 cloud watch subscription filter but the files are not readable

从数据 stream (Kinesis) 到 OpenSearch AWS 创建交付 stream (Firehose)

[英]Create delivery stream (Firehose) from data stream (Kinesis) to OpenSearch AWS

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Kinesis Firehose 将数据从 DynamoDB Steam 传输到 S3：为什么文件中的 JSON 个对象数量不同？读取 Amazon Kinesis Firehose 写入 s3 的数据 stream 使用来自 Kinesis Data Stream 源的 Kinesis Firehose Delivery Stream 将数据写入 S3 时出现问题 Kinesis firehose 写入 S3 但访问被拒绝 Kinesis Firehose 将 JSON 个对象放入 S3 中，没有分隔符逗号按事件时间对 Kinesis firehose S3 记录进行分区 AWS Kinesis Data Firehose 和 Lambda 无法触发由 Kinesis Firehose 传输流创建的 S3 对象上的事件 Kinesis Firehose 写入 S3 云监视订阅过滤器，但文件不可读从数据 stream (Kinesis) 到 OpenSearch AWS 创建交付 stream (Firehose)

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM