簡體   English   中英

Hive(在Tez上)和Spark之間針對我的特定用例進行的性能基准測試

[英]Performance benchmarking between Hive (on Tez) and Spark for my particular use case

我正在研究集群上的一些數據,並希望進行一些聚合---沒什么太復雜了,但是比總和更復雜,聯接很少,並且計數不同。 我已經在Scive的Hive和Spark中實現了這種聚合,並想比較執行時間。

當我從網關提交腳本時,Linux時間函數給我的實時時間小於我期望的sys時間。 但是我不確定該選擇哪一個作為適當的比較。 也許只是使用sys.time並運行兩次查詢幾次? 在這種情況下可以接受還是我完全菜鳥?

即時的。 從性能基准的角度來看,您只關心查詢完成之前需要花費多長時間(人工),您可以查看結果,而不是應用程序內部啟動了多少個進程。

請注意,我會非常謹慎地進行性能基准測試,因為Spark和Hive都有大量可調整的配置旋鈕,這些旋鈕會極大地影響性能。 請參閱此處的一些示例,以通過矢量化,數據格式選擇,數據存儲和數據排序來更改Hive性能。

普遍的共識是,Spark的速度比Hive on Tez快,但是Hive可以處理無法更好地存儲在內存中的海量數據集。 (由於我很懶,所以我不會引用消息來源,請使用谷歌搜索)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM