![](/img/trans.png)
[英]Why is the pandas.read_fwf function so slow compared to some python alternatives?
[英]Why is Apache-Spark - Python so slow locally as compared to pandas?
这里有Spark新手。 我最近使用以下命令开始使用两个内核在本地计算机上使用Spark:
pyspark --master local[2]
我有一个393Mb的文本文件,有近百万行。 我想执行一些数据操作操作。 我使用PySpark的内置数据帧函数来执行简单的操作,如groupBy
, sum
, max
, stddev
。
然而,当我在完全相同的数据集上对熊猫进行完全相同的操作时,pandas似乎在延迟方面以极大的差距击败了pyspark。
我想知道这可能是什么原因。 我有几个想法。
谢谢你的期待。 非常感激。
因为:
你可以这样长时间继续...
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.