繁体   English   中英

在 Athena 中对表进行分区

[英]Partitioning a table in Athena

我有一个 Athena 表,大约有 500 万条记录,表中的所有列都是字符串。 示例列:名字、姓氏、地址。

我的要求是将行划分为固定数量的分区(比如 100),同时确保数据按 first_name 排序,并且相同的 first_name 仅在一个分区中可用。

Athena 是否从 S3 或 Glue 数据目录读取文件?

假设 Athena 正在读取存储在 S3 中的文件,那么您必须首先对数据进行排序和分组(通过使用 Lambda/Glue/EMR),然后将其存储到 S3 中,同时基于 first_name(s3://customer) 创建分区/data/first_name)。 通过这样做,数据将被排序,并且所有相同的名字将出现在一个分区中。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM