繁体   English   中英

Amazon S3、Amazon Athena 和 Amazon Athena 与分区的比较

[英]Comparison of Amazon S3, Amazon Athena, and Amazon Athena with partitioning

我想知道当我们使用不带分区和带分区的 Amazon Athena 时的性能改进。 我确信带分区的 Athena 比 Athena 好得多。 但是没有分区的 Athena 是否比 Amazon S3 有任何改进?

分区将数据文件分成不同的目录。 如果用于分区的列是查询的WHERE子句的一部分,则它允许 Athena 跳过不包含相关数据的目录。 这对于提高查询性能(并降低成本)非常有效,因为它减少了对磁盘访问和 memory 的需求。

有几种方法可以提高 Amazon Athena 的性能:

  • 以列格式存储数据,例如 Parquet。 这允许 Athena 将 go 直接读取到特定列,而无需读取宽表中的所有列。 (这类似于 Amazon Redshift。)
  • 压缩数据(例如使用 Snappy 压缩)以减少需要从磁盘读取的数据量。 这也降低了查询的成本,因为它们是根据从磁盘读取的数据量收费的。 (即时节省!)
  • 在查询的WHERE子句中使用分区键时,将数据分区以完全跳过输入文件

有关这些优势的一些示例,请参阅: 使用 Amazon Athena 分析 S3 中的数据 | AWS 大数据博客

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM