![](/img/trans.png)
[英]How to include external Spark library while using PySpark in Jupyter notebook
[英]Referencing a Spark (Scala) library from a PySpark library
我將為 PySpark 客戶端構建一個 Python 庫。 這個庫將調用我已經構建並投入生產的 Spark (Scala) 庫。 作為動機(也許還有健全性檢查),他們將調用的 Python 庫看起來像這樣:
from pyspark.sql.DataFrame import PyDataFrame
def process(python_data_frame):
sc = python_data_frame.rdd.context
sql_context = python_data_frame.sql_ctx
processed_scala_df = sc._jvm.com.mayonesa.ScalaClass.process(python_data_frame._jdf)
return PyDataFrame(processed_scala_df, sql_context)
我想讓我的 PySpark 客戶盡可能輕松地導入/使用這個庫。 我將如何引用我的 Scala 項目作為此 Python 庫的依賴項/在此庫中? 我想避免他們必須向spark-submit
命令添加屬性(即--jars
)。
--jars
或--packages
是 go 與 3rd 方庫(如您的)的典型方式。
如果您想讓他們使用您的庫的體驗不那么痛苦,您可能希望將帶有所有額外參數的spark-submit
命令包裝到包裝腳本中,這肯定會使調用更容易。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.