繁体 English 中英

预测集群上的Spark性能/可扩展性？

[英]Predicting Spark performance/scalability on cluster?

原文 2016-07-12 19:17:43 9 1 performance/ apache-spark/ benchmarking/ scalability

假设您已经在Spark中编写了一种算法，并且可以在本地模式下使用大小为N数据集上的1 .. X核评估其性能。 您将如何处理以下问题：

在具有Y节点且数据大小为M >> N的群集上运行的运行时是什么？
使用任意数量的节点，大小为M >> N的数据集的最小可能运行时间是多少？

显然，这受无数因素的影响，几乎不可能给出精确的估计。 但是，您如何得出有根据的猜测？ 在本地模式下运行主要允许测量CPU使用率。 是否有一个经验法则还可以考虑随机播放中的磁盘和网络负载？ 甚至还有模拟集群性能的方法吗？

1 个解决方案

数据负载可以估计为O（n）。

可以为每个阶段估计算法。 整个算法是所有阶段的累积。 注意，每个阶段都有不同数量的数据，它与第一个输入数据有关系。

如果整个算法具有O（n），则为O（n）。
如果整个算法具有O（n log n），则为O（n log n）。
如果整个算法具有O（n ² ），则需要对该算法进行改进以适合M >>N。

假设

没有巨大的洗牌/网络足够快
每个节点具有相同的配置
对于单个节点上的数据大小N，总花费的时间为T。
节点数为X

那么算法的时间为O（n） T * M / N / X

那么算法的时间为O（n log n） T * M / N / X * log(M/N)

编辑

如果有一个大的混洗，则它相对于带宽为O（n）。 添加的额外时间是dataSize(M)/bandwidth 。

如果有很多大的混洗，则考虑改进算法。

Spark可扩展性

[英]Spark scalability

Kafka + Spark可扩展性

[英]Kafka + Spark scalability

NodeJS / ERP - 性能/可扩展性

[英]NodeJS / ERP - Performance / Scalability

流星的可扩展性和性能

[英]Scalability and performance in Meteor

Web应用程序的可扩展性和性能

[英]web app scalability and performance

NHibernate性能和可伸缩性

[英]NHibernate Performance and Scalability

Java +提高性能和可伸缩性

[英]java + increasing performance and scalability

从可扩展性、性能、

[英]Understanding REST in terms of scalability, performance,

并行计算机中应用程序的性能和可伸缩性

[英]Performance and scalability of applications in parallel computers

Akka可扩展性和性能基准测试用例

[英]Akka scalability and performance benchmark testcases

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Spark可扩展性 Kafka + Spark可扩展性 NodeJS / ERP - 性能/可扩展性流星的可扩展性和性能 Web应用程序的可扩展性和性能 NHibernate性能和可伸缩性 Java +提高性能和可伸缩性从可扩展性、性能、并行计算机中应用程序的性能和可伸缩性 Akka可扩展性和性能基准测试用例

相关标签

预测集群上的Spark性能/可扩展性？

问题描述

1 个解决方案

解决方案1
2 2016-07-12 21:17:16

预测集群上的Spark性能/可扩展性？

问题描述

1 个解决方案

解决方案1 2 2016-07-12 21:17:16

解决方案1
2 2016-07-12 21:17:16