簡體 English 中英

Spark：使用Python的危險

[英]Spark: Dangers of using Python

原文 2017-09-22 04:29:49 1 2 python/ scala/ apache-spark/ pyspark/ user-defined-functions

在“ Spark：權威指南”一書中（當前是早期版本，文本可能會更改），作者建議不要在Spark中將Pyspark用於用戶定義的功能：

“啟動此Python進程非常昂貴，但實際成本卻是將數據序列化為Python。這之所以昂貴，有兩個原因，這是昂貴的計算，而且一旦數據進入Python，Spark就無法管理工作程序的內存。這意味着，如果它變得受到資源限制，可能會導致工作程序失敗（因為JVM和python都在同一台機器上爭奪內存）。”

我知道Python和JVM之間爭用工作節點資源可能是一個嚴重的問題。 但這對駕駛員也不適用嗎？ 在這種情況下，將完全反對使用Pyspark。 誰能解釋一下導致司機情況不同的原因嗎？

2 個解決方案

一般而言，與使用PySpark相比，這更是反對使用Python UDF的爭論，並且在較小程度上，可以針對本機（在JVM上實現）UDF做出類似的爭論。

您還應該注意，矢量化UDF位於Spark路線圖上，因此：

真正的代價是將數據序列化到Python

將來可能不再需要關注。

但這對駕駛員也不適用嗎？

沒那么多。 盡管共享單個節點的資源始終是一個問題（考慮其他服務的並置），但UDF的問題非常具體-相同的數據必須同時存儲在兩個不同的上下文中。

例如，如果您選擇加入RDD API，則JVM主要用於通信層，並且開銷要小得多。 因此，盡管您可能會找到一些更適合的本機Python工具，但對於本機Python計算而言，這是更自然的選擇。

在驅動程序應用程序中，您不必一定要collect大量的記錄。 也許您只是在簡化一些統計數據。

這只是典型的行為：駕駛員通常處理統計結果。 你的旅費可能會改變。

另一方面，Spark應用程序通常使用執行程序來讀取其內存允許的盡可能多的數據並進行處理。 因此，內存管理幾乎總是一個問題。

我認為這是本書所要達到的區別。

在Python函數中使用kwarg = kwarg是否有任何危險？

[英]Are there any dangers associated with using kwarg=kwarg in Python functions?

Python：使用上下文管理器臨時更改隨機種子的危險？

[英]Python: dangers of temporarily changing the random seed using a context manager?

Python存在多線程的危險？

[英]Python dangers of multithreading?

將Appium作為python子進程運行的危險？

[英]Dangers of running Appium as a python subprocess?

從python 2.7升級到3.0及更高版本的危險

[英]Dangers of updating from python 2.7 to 3.0 and above

Python：將特定對象的函數作為參數傳遞的危險是什么

[英]Python: What are the dangers of passing a specific object's function as an argument

將 python 3.8 降級到 3.7 (VM) 是否有任何危險/擔憂

[英]Are there any dangers/concerns for downgrading python 3.8 to 3.7 (VM)

Python spark：如何在 databricks 中使用 spark 並行化 Spark Dataframe 計算

[英]Python spark : How to parellelize Spark Dataframe compute using spark in databricks

使用python lime作為火花上的udf

[英]Using python lime as a udf on spark

使用Python的Apache Spark TFIDF

[英]Apache Spark TFIDF using Python

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 在Python函數中使用kwarg = kwarg是否有任何危險？ Python：使用上下文管理器臨時更改隨機種子的危險？ Python存在多線程的危險？將Appium作為python子進程運行的危險？從python 2.7升級到3.0及更高版本的危險 Python：將特定對象的函數作為參數傳遞的危險是什么將 python 3.8 降級到 3.7 (VM) 是否有任何危險/擔憂 Python spark：如何在 databricks 中使用 spark 並行化 Spark Dataframe 計算使用python lime作為火花上的udf 使用Python的Apache Spark TFIDF

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM