在S3分區上進行Hive查詢太慢

Question

我已經按日期對數據進行了分區，這就是它在s3中的存儲方式。

s3://dataset/date=2018-04-01
s3://dataset/date=2018-04-02
s3://dataset/date=2018-04-03
s3://dataset/date=2018-04-04
...

在此之上創建hive外部表。 我正在執行此查詢，

select count(*) from dataset where `date` ='2018-04-02'

這個分區有兩個這樣的實木復合地板文件，

part1 -xxxx- .snappy.parquet
part2 -xxxx- .snappy.parquet

每個文件大小為297MB. ，所以不是大文件，也不是要掃描的文件很多。

查詢將返回12201724記錄。 但是，返回此結果需要3.5分鍾，因為一個分區本身正在占用此時間，因此即使在整個數據集（7年）的數據上運行計數查詢也要花費數小時才能返回結果。 無論如何，我可以加快速度嗎？

Answer 1

Amazon Athena實際上是托管的Presto服務。 它可以查詢存儲在Amazon S3中的數據，而無需運行任何集群。

它是根據從磁盤讀取的數據量來收費的，因此在使用分區和鑲木地板文件時，它可以非常高效地運行。

請參閱：使用Amazon Athena分析S3中的數據| AWS大數據博客