繁体 English 中英

为什么Apache-Spark - Python在本地与熊猫相比如此之慢？

[英]Why is Apache-Spark - Python so slow locally as compared to pandas?

原文 2018-02-15 20:01:46 5 1 python/ pandas/ apache-spark/ pyspark/ apache-spark-sql

这里有Spark新手。 我最近使用以下命令开始使用两个内核在本地计算机上使用Spark：

pyspark --master local[2]

我有一个393Mb的文本文件，有近百万行。 我想执行一些数据操作操作。 我使用PySpark的内置数据帧函数来执行简单的操作，如groupBy ， sum ， max ， stddev 。

然而，当我在完全相同的数据集上对熊猫进行完全相同的操作时，pandas似乎在延迟方面以极大的差距击败了pyspark。

我想知道这可能是什么原因。 我有几个想法。

内置函数是否低效地执行序列化/反序列化过程？ 如果是的话，它们的替代品是什么？
数据集是否太小，以至于无法超过运行spark的基础JVM的开销成本？

谢谢你的期待。 非常感激。

1 个解决方案

因为：

Apache Spark是一个复杂的框架，旨在将处理分布在数百个节点上，同时确保正确性和容错性。 每种属性都有很高的成本。
因为纯粹的内存内核处理（Pandas）比磁盘和网络（甚至是本地）I / O（Spark）快几个数量级。
因为并行性（和分布式处理）会增加显着的开销，即使具有最佳（令人尴尬的并行工作负载）也不能保证任何性能改进。
因为本地模式不是为性能而设计的。 它用于测试。
最后但并非最不重要 - 在393MB上运行的2个核心不足以看到任何性能改进，单个节点不提供任何分发机会
还有Spark：核心数量不一致的性能数量，为什么pyspark在查找列的最大值时要慢得多？ 为什么我的Spark运行速度比纯Python慢？ 性能比较

你可以这样长时间继续...

与某些 python 替代品相比，为什么 pandas.read_fwf function 这么慢？

[英]Why is the pandas.read_fwf function so slow compared to some python alternatives?

python上的Apache-Spark错误：java.lang.reflect.InaccessibleObjectException

[英]Apache-Spark error on python : java.lang.reflect.InaccessibleObjectException

为什么 pandas.DataFrames 上的简单操作与 numpy.ndarrays 上的相同操作相比如此缓慢？

[英]Why are simple operations on pandas.DataFrames so slow compared to the same operations on numpy.ndarrays?

使用 Kubernetes、Python 和 Apache-Spark 3.2.0 在客户端模式下运行 spark 的两个单独图像？

[英]Two separate images to run spark in client-mode using Kubernetes, Python with Apache-Spark 3.2.0?

使用Apache-Spark分析时间序列

[英]Using Apache-Spark to analyze time series

用于协方差计算的 Pandas 与 MLLib 的确切 Apache-Spark NA 处理差异是什么？

[英]What is the Exact Apache-Spark NA Treatment Difference Pandas vs MLLib for Covariance Computation?

输入路径不存在apache-spark

[英]input path does not exist apache-spark

与Java或C＃中的相同算法相比，为什么在Python中这种主要筛子这么慢？

[英]Why is this prime sieve so slow in Python compared with the same algorithm in Java or C#?

这个python代码有什么问题，为什么它比ruby运行得那么慢？

[英]Is there something wrong with this python code, why does it run so slow compared to ruby?

如何使用Apache-Spark使python代码在AWS从属节点上运行？

[英]How can I make my python code run on the AWS slave nodes using Apache-Spark?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 与某些 python 替代品相比，为什么 pandas.read_fwf function 这么慢？ python上的Apache-Spark错误：java.lang.reflect.InaccessibleObjectException 为什么 pandas.DataFrames 上的简单操作与 numpy.ndarrays 上的相同操作相比如此缓慢？使用 Kubernetes、Python 和 Apache-Spark 3.2.0 在客户端模式下运行 spark 的两个单独图像？使用Apache-Spark分析时间序列用于协方差计算的 Pandas 与 MLLib 的确切 Apache-Spark NA 处理差异是什么？输入路径不存在apache-spark 与Java或C＃中的相同算法相比，为什么在Python中这种主要筛子这么慢？这个python代码有什么问题，为什么它比ruby运行得那么慢？如何使用Apache-Spark使python代码在AWS从属节点上运行？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM