繁体   English   中英

为什么Apache-Spark - Python在本地与熊猫相比如此之慢?

[英]Why is Apache-Spark - Python so slow locally as compared to pandas?

这里有Spark新手。 我最近使用以下命令开始使用两个内核在本地计算机上使用Spark:

pyspark --master local[2]

我有一个393Mb的文本文件,有近百万行。 我想执行一些数据操作操作。 我使用PySpark的内置数据帧函数来执行简单的操作,如groupBysummaxstddev

然而,当我在完全相同的数据集上对熊猫进行完全相同的操作时,pandas似乎在延迟方面以极大的差距击败了pyspark。

我想知道这可能是什么原因。 我有几个想法。

  1. 内置函数是否低效地执行序列化/反序列化过程? 如果是的话,它们的替代品是什么?
  2. 数据集是否太小,以至于无法超过运行spark的基础JVM的开销成本?

谢谢你的期待。 非常感激。

因为:

你可以这样长时间继续...

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM