繁体   English   中英

Hive(在Tez上)和Spark之间针对我的特定用例进行的性能基准测试

[英]Performance benchmarking between Hive (on Tez) and Spark for my particular use case

我正在研究集群上的一些数据,并希望进行一些聚合---没什么太复杂了,但是比总和更复杂,联接很少,并且计数不同。 我已经在Scive的Hive和Spark中实现了这种聚合,并想比较执行时间。

当我从网关提交脚本时,Linux时间函数给我的实时时间小于我期望的sys时间。 但是我不确定该选择哪一个作为适当的比较。 也许只是使用sys.time并运行两次查询几次? 在这种情况下可以接受还是我完全菜鸟?

即时的。 从性能基准的角度来看,您只关心查询完成之前需要花费多长时间(人工),您可以查看结果,而不是应用程序内部启动了多少个进程。

请注意,我会非常谨慎地进行性能基准测试,因为Spark和Hive都有大量可调整的配置旋钮,这些旋钮会极大地影响性能。 请参阅此处的一些示例,以通过矢量化,数据格式选择,数据存储和数据排序来更改Hive性能。

普遍的共识是,Spark的速度比Hive on Tez快,但是Hive可以处理无法更好地存储在内存中的海量数据集。 (由于我很懒,所以我不会引用消息来源,请使用谷歌搜索)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM