繁体 English 中英

更新存储在 AWS S3 中的数据的模式/数据的策略

[英]Strategy for Updating Schema/Data of Data Stored in AWS S3

原文 2020-07-17 14:44:38 4 1 amazon-web-services/ amazon-s3/ aws-glue/ amazon-athena

在我的组织中，我们使用 AWS S3、 AWS Glue和Athena的堆栈来驱动一些内部指标报告。 通常，此堆栈非常适合快速设置以报告原始数据（存储在 S3 中）。 我们遇到的问题是，如果我们注意到需要以某种方式更新已存储在 S3 中的数据，该怎么办。 例如，我们要更新具有特定字符串的列中的值以更新该值。

与数据库不同，我们不能只运行查询来更新所有现有数据。 我试过看看我们是否可以利用Glue Jobs来完成这个，但从我有限的理解来看，它似乎并不意味着从一个桶到同一个桶进行 ETL。

我唯一能想到的就是编写一个自定义工具来遍历 S3 存储桶、加载文件、提供转换，然后将其放回原处，覆盖原始文件。 似乎必须有更好的方法。

1 个解决方案

在传统的类似蜂巢的仓储解决方案中，更新不是以本地方式处理的，我认为 Athena 就是这样。 一种常见的解决方案是一种工程解决方法，您可以在其中“插入覆盖”分区（借用 Hive 语法，在 Presto 中可能，希望在基于 Presto 的 Athena 中也可能）。

其他解决方案包括创建新表和自动替换用户应该查询的视图，而不是直接查询底层表。

由于这是一个常见问题，因此也有一些现成的解决方案，但我不知道 Athena 是否可行。 它们当然可以使用 Presto (Presto SQL)：

Hive ACID 事务表（当前需要更新 Hive 运行时）
Data Lake（由 Databricks 开源；更新目前需要 Spark 运行时）
Hudi（我对这个知之甚少）

更新存储在 AWS S3 存储桶中的 csv 表中的数据

[英]Update data in csv table which is stored in AWS S3 bucket

数据存储在 S3 与 HDFS 上

[英]Data stored on S3 vs on HDFS

如何将数据提取到 AWS S3

[英]How to Ingest Data into AWS S3

将 S3 数据加载到 AWS SageMaker Notebook

[英]Load S3 Data into AWS SageMaker Notebook

使用 AWS Glue 将数据从 S3 加载到 Aurora Serverless

[英]Load data from S3 into Aurora Serverless using AWS Glue

将数据从 Azure Blob 存储复制到 AWS S3

[英]Copy Data From Azure Blob Storage to AWS S3

在c++中使用curl上传数据到aws s3

[英]Upload data to aws s3 using curl in c++

AWS Lambda - 将数据从 s3 传输到 redshift

[英]AWS Lambda - transfer data from s3 to redshift

AWS cloudfront 不更新 S3 中的文件更新

[英]AWS cloudfront not updating on update of files in S3

AWS Lambda S3 存储桶中的代码未更新

[英]AWS Lambda Code in S3 Bucket not updating

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 更新存储在 AWS S3 存储桶中的 csv 表中的数据数据存储在 S3 与 HDFS 上如何将数据提取到 AWS S3 将 S3 数据加载到 AWS SageMaker Notebook 使用 AWS Glue 将数据从 S3 加载到 Aurora Serverless 将数据从 Azure Blob 存储复制到 AWS S3 在c++中使用curl上传数据到aws s3 AWS Lambda - 将数据从 s3 传输到 redshift AWS cloudfront 不更新 S3 中的文件更新 AWS Lambda S3 存储桶中的代码未更新

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM