[英]Hive query on s3 partition is too slow
我已經按日期對數據進行了分區,這就是它在s3中的存儲方式。
s3://dataset/date=2018-04-01
s3://dataset/date=2018-04-02
s3://dataset/date=2018-04-03
s3://dataset/date=2018-04-04
...
在此之上創建hive外部表。 我正在執行此查詢,
select count(*) from dataset where `date` ='2018-04-02'
這個分區有兩個這樣的實木復合地板文件,
part1 -xxxx- .snappy.parquet
part2 -xxxx- .snappy.parquet
每個文件大小為297MB.
,所以不是大文件,也不是要掃描的文件很多。
查詢將返回12201724
記錄。 但是,返回此結果需要3.5分鍾,因為一個分區本身正在占用此時間,因此即使在整個數據集(7年)的數據上運行計數查詢也要花費數小時才能返回結果。 無論如何,我可以加快速度嗎?
Amazon Athena實際上是托管的Presto服務。 它可以查詢存儲在Amazon S3中的數據,而無需運行任何集群。
它是根據從磁盤讀取的數據量來收費的,因此在使用分區和鑲木地板文件時,它可以非常高效地運行。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.