簡體   English   中英

在S3分區上進行Hive查詢太慢

[英]Hive query on s3 partition is too slow

我已經按日期對數據進行了分區,這就是它在s3中的存儲方式。

s3://dataset/date=2018-04-01
s3://dataset/date=2018-04-02
s3://dataset/date=2018-04-03
s3://dataset/date=2018-04-04
...

在此之上創建hive外部表。 我正在執行此查詢,

select count(*) from dataset where `date` ='2018-04-02' 

這個分區有兩個這樣的實木復合地板文件,

part1 -xxxx- .snappy.parquet
part2 -xxxx- .snappy.parquet

每個文件大小為297MB. ,所以不是大文件,也不是要掃描的文件很多。

查詢將返回12201724記錄。 但是,返回此結果需要3.5分鍾,因為一個分區本身正在占用此時間,因此即使在整個數據集(7年)的數據上運行計數查詢也要花費數小時才能返回結果。 無論如何,我可以加快速度嗎?

Amazon Athena實際上是托管的Presto服務。 它可以查詢存儲在Amazon S3中的數據,而無需運行任何集群。

它是根據從磁盤讀取的數據量來收費的,因此在使用分區和鑲木地板文件時,它可以非常高效地運行。

請參閱: 使用Amazon Athena分析S3中的數據| AWS大數據博客

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM