簡體   English   中英

從 PySpark 庫中引用 Spark (Scala) 庫

[英]Referencing a Spark (Scala) library from a PySpark library

我將為 PySpark 客戶端構建一個 Python 庫。 這個庫將調用我已經構建並投入生產的 Spark (Scala) 庫。 作為動機(也許還有健全性檢查),他們將調用的 Python 庫看起來像這樣:

from pyspark.sql.DataFrame import PyDataFrame

def process(python_data_frame):
    sc = python_data_frame.rdd.context
    sql_context = python_data_frame.sql_ctx    
    processed_scala_df = sc._jvm.com.mayonesa.ScalaClass.process(python_data_frame._jdf)

    return PyDataFrame(processed_scala_df, sql_context)

我想讓我的 PySpark 客戶盡可能輕松地導入/使用這個庫。 我將如何引用我的 Scala 項目作為此 Python 庫的依賴項/在此庫中? 我想避免他們必須向spark-submit命令添加屬性(即--jars )。

--jars--packages是 go 與 3rd 方庫(如您的)的典型方式。

如果您想讓他們使用您的庫的體驗不那么痛苦,您可能希望將帶有所有額外參數的spark-submit命令包裝到包裝腳本中,這肯定會使調用更容易。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM