簡體 English 中英

為什么Apache-Spark - Python在本地與熊貓相比如此之慢？

[英]Why is Apache-Spark - Python so slow locally as compared to pandas?

原文 2018-02-15 20:01:46 5 1 python/ pandas/ apache-spark/ pyspark/ apache-spark-sql

這里有Spark新手。 我最近使用以下命令開始使用兩個內核在本地計算機上使用Spark：

pyspark --master local[2]

我有一個393Mb的文本文件，有近百萬行。 我想執行一些數據操作操作。 我使用PySpark的內置數據幀函數來執行簡單的操作，如groupBy ， sum ， max ， stddev 。

然而，當我在完全相同的數據集上對熊貓進行完全相同的操作時，pandas似乎在延遲方面以極大的差距擊敗了pyspark。

我想知道這可能是什么原因。 我有幾個想法。

內置函數是否低效地執行序列化/反序列化過程？ 如果是的話，它們的替代品是什么？
數據集是否太小，以至於無法超過運行spark的基礎JVM的開銷成本？

謝謝你的期待。 非常感激。

1 個解決方案

因為：

Apache Spark是一個復雜的框架，旨在將處理分布在數百個節點上，同時確保正確性和容錯性。 每種屬性都有很高的成本。
因為純粹的內存內核處理（Pandas）比磁盤和網絡（甚至是本地）I / O（Spark）快幾個數量級。
因為並行性（和分布式處理）會增加顯着的開銷，即使具有最佳（令人尷尬的並行工作負載）也不能保證任何性能改進。
因為本地模式不是為性能而設計的。 它用於測試。
最后但並非最不重要 - 在393MB上運行的2個核心不足以看到任何性能改進，單個節點不提供任何分發機會
還有Spark：核心數量不一致的性能數量，為什么pyspark在查找列的最大值時要慢得多？ 為什么我的Spark運行速度比純Python慢？ 性能比較

你可以這樣長時間繼續...

與某些 python 替代品相比，為什么 pandas.read_fwf function 這么慢？

[英]Why is the pandas.read_fwf function so slow compared to some python alternatives?

python上的Apache-Spark錯誤：java.lang.reflect.InaccessibleObjectException

[英]Apache-Spark error on python : java.lang.reflect.InaccessibleObjectException

為什么 pandas.DataFrames 上的簡單操作與 numpy.ndarrays 上的相同操作相比如此緩慢？

[英]Why are simple operations on pandas.DataFrames so slow compared to the same operations on numpy.ndarrays?

使用 Kubernetes、Python 和 Apache-Spark 3.2.0 在客戶端模式下運行 spark 的兩個單獨圖像？

[英]Two separate images to run spark in client-mode using Kubernetes, Python with Apache-Spark 3.2.0?

使用Apache-Spark分析時間序列

[英]Using Apache-Spark to analyze time series

用於協方差計算的 Pandas 與 MLLib 的確切 Apache-Spark NA 處理差異是什么？

[英]What is the Exact Apache-Spark NA Treatment Difference Pandas vs MLLib for Covariance Computation?

輸入路徑不存在apache-spark

[英]input path does not exist apache-spark

與Java或C＃中的相同算法相比，為什么在Python中這種主要篩子這么慢？

[英]Why is this prime sieve so slow in Python compared with the same algorithm in Java or C#?

這個python代碼有什么問題，為什么它比ruby運行得那么慢？

[英]Is there something wrong with this python code, why does it run so slow compared to ruby?

如何使用Apache-Spark使python代碼在AWS從屬節點上運行？

[英]How can I make my python code run on the AWS slave nodes using Apache-Spark?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 與某些 python 替代品相比，為什么 pandas.read_fwf function 這么慢？ python上的Apache-Spark錯誤：java.lang.reflect.InaccessibleObjectException 為什么 pandas.DataFrames 上的簡單操作與 numpy.ndarrays 上的相同操作相比如此緩慢？使用 Kubernetes、Python 和 Apache-Spark 3.2.0 在客戶端模式下運行 spark 的兩個單獨圖像？使用Apache-Spark分析時間序列用於協方差計算的 Pandas 與 MLLib 的確切 Apache-Spark NA 處理差異是什么？輸入路徑不存在apache-spark 與Java或C＃中的相同算法相比，為什么在Python中這種主要篩子這么慢？這個python代碼有什么問題，為什么它比ruby運行得那么慢？如何使用Apache-Spark使python代碼在AWS從屬節點上運行？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM