AWS Athena 分区数据

Question

我在 s3 中有一个 tsv 文件，我正在评估有和没有分区的 Athena 查询扫描大小。 查询运行良好，没有任何分区并扫描完整数据。 当我尝试分区时，我无法加载分区。 这些文档对于理解如何为 tsv 数据加载分区不是很有帮助。

S3 数据示例：

column1 column2 US  column4
column1 column2 US  column4
column1 column2 DE  column4
column1 column2 DE  column4
column1 column2 US  column4
column1 column2 US  column4
column1 column2 IT  column4
column1 column2 IT  column4

我想按第三列进行分区，因为这是我会经常查询的那一列。 运行 MSCK REPAIR TABLE 显然没有加载分区。 如何实现这一目标？

Answer 1

在Athena中，需要将分区分成S3文件夹。 不支持按任意数据列进行分区。

因此，要使用分区，您可以将必要的列设置为名称/值对作为文件夹名称，也可以将文件夹显式映射到分区。

此处介绍了两种情况：

https://docs.aws.amazon.com/athena/latest/ug/partitions.html

Answer 2

另一种选择是将您的 s3 文件上传到平面文件夹结构（无分区）。 创建指向该位置的未分区“暂存”表定义。 然后执行 CTAS（创建表作为选择）命令以选择从未分区的临时表到新的分区表中的所有内容。 这会将所有正确的数据放在正确的 s3 分区文件夹中，甚至可以用于切换您的底层数据格式。

https://docs.aws.amazon.com/athena/latest/ug/ctas.html

AWS Athena 分区数据

问题描述

2 个解决方案

解决方案1
1 2018-07-06 11:14:27

解决方案2
0 2021-11-05 00:16:20

AWS Athena 分区数据

问题描述

2 个解决方案

解决方案1 1 2018-07-06 11:14:27

解决方案2 0 2021-11-05 00:16:20

解决方案1
1 2018-07-06 11:14:27

解决方案2
0 2021-11-05 00:16:20