簡體   English   中英

配置文件讀取文件

[英]Hive on spark reading files

我在Spark上使用Hive。 我在Hadoop中壓縮了日志文件。 它們的平均大小為40 MB,而塊大小為128 MB。 我相信,如果我以某種方式合並日志文件,我將擁有更少的塊,並且可以減少數據讀取時間。 例如,我每小時都有日志文件(每天24個文件-> 24個塊)。 聚合后,我有6個塊的1個文件(24小時)。

我已經使用Hive進行了基准測試,並注意到連接后的讀取時間和查詢執行時間比6倍增加了。

問題:我對Spark上的Hadoop-Hive的看法是什么?

壓縮的文本文件不可拆分
您的原始數據已被多個映射器讀取。
單個映射器正在讀取您的合並數據。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM