簡體   English   中英

為什么Apache-Spark - Python在本地與熊貓相比如此之慢?

[英]Why is Apache-Spark - Python so slow locally as compared to pandas?

這里有Spark新手。 我最近使用以下命令開始使用兩個內核在本地計算機上使用Spark:

pyspark --master local[2]

我有一個393Mb的文本文件,有近百萬行。 我想執行一些數據操作操作。 我使用PySpark的內置數據幀函數來執行簡單的操作,如groupBysummaxstddev

然而,當我在完全相同的數據集上對熊貓進行完全相同的操作時,pandas似乎在延遲方面以極大的差距擊敗了pyspark。

我想知道這可能是什么原因。 我有幾個想法。

  1. 內置函數是否低效地執行序列化/反序列化過程? 如果是的話,它們的替代品是什么?
  2. 數據集是否太小,以至於無法超過運行spark的基礎JVM的開銷成本?

謝謝你的期待。 非常感激。

因為:

你可以這樣長時間繼續...

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM