簡體 English 中英

從 PySpark 庫中引用 Spark (Scala) 庫

[英]Referencing a Spark (Scala) library from a PySpark library

原文 2021-05-12 22:09:45 2 1 python/ scala/ apache-spark/ pyspark

我將為 PySpark 客戶端構建一個 Python 庫。 這個庫將調用我已經構建並投入生產的 Spark (Scala) 庫。 作為動機（也許還有健全性檢查），他們將調用的 Python 庫看起來像這樣：

from pyspark.sql.DataFrame import PyDataFrame

def process(python_data_frame):
    sc = python_data_frame.rdd.context
    sql_context = python_data_frame.sql_ctx    
    processed_scala_df = sc._jvm.com.mayonesa.ScalaClass.process(python_data_frame._jdf)

    return PyDataFrame(processed_scala_df, sql_context)

我想讓我的 PySpark 客戶盡可能輕松地導入/使用這個庫。 我將如何引用我的 Scala 項目作為此 Python 庫的依賴項/在此庫中？ 我想避免他們必須向spark-submit命令添加屬性（即--jars ）。

1 個解決方案

--jars或--packages是 go 與 3rd 方庫（如您的）的典型方式。

如果您想讓他們使用您的庫的體驗不那么痛苦，您可能希望將帶有所有額外參數的spark-submit命令包裝到包裝腳本中，這肯定會使調用更容易。

如何在Jupyter Notebook中使用PySpark時包含外部Spark庫

[英]How to include external Spark library while using PySpark in Jupyter notebook

在pyspark上導入python庫

[英]Import python library on pyspark

Spark 1.6：如何將從Scala jar生成的RDD轉換為pyspark RDD？

[英]Spark 1.6: How do convert an RDD generated from a Scala jar to a pyspark RDD?

Python attrs庫和引用實例方法

[英]Python attrs library and referencing instance methods

使用Python請求庫引用XML結果

[英]Referencing XML results using Python Requests Library

如何將 Mlib 庫添加到 Spark？

[英]How to add Mlib library to Spark?

Spark 集群無法識別 Python 庫

[英]Python Library not recognized on Spark Cluster

將自定義 python 庫路徑添加到 Pyspark

[英]Add custom python library path to Pyspark

在 pyspark 中使用 pandas_udf 中的外部庫

[英]Use external library in pandas_udf in pyspark

使用帶有 pyspark dataframe 的 h3 庫

[英]using h3 library with pyspark dataframe

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 如何在Jupyter Notebook中使用PySpark時包含外部Spark庫在pyspark上導入python庫 Spark 1.6：如何將從Scala jar生成的RDD轉換為pyspark RDD？ Python attrs庫和引用實例方法使用Python請求庫引用XML結果如何將 Mlib 庫添加到 Spark？ Spark 集群無法識別 Python 庫將自定義 python 庫路徑添加到 Pyspark 在 pyspark 中使用 pandas_udf 中的外部庫使用帶有 pyspark dataframe 的 h3 庫

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM