繁体   English   中英

从 PySpark 库中引用 Spark (Scala) 库

[英]Referencing a Spark (Scala) library from a PySpark library

我将为 PySpark 客户端构建一个 Python 库。 这个库将调用我已经构建并投入生产的 Spark (Scala) 库。 作为动机(也许还有健全性检查),他们将调用的 Python 库看起来像这样:

from pyspark.sql.DataFrame import PyDataFrame

def process(python_data_frame):
    sc = python_data_frame.rdd.context
    sql_context = python_data_frame.sql_ctx    
    processed_scala_df = sc._jvm.com.mayonesa.ScalaClass.process(python_data_frame._jdf)

    return PyDataFrame(processed_scala_df, sql_context)

我想让我的 PySpark 客户尽可能轻松地导入/使用这个库。 我将如何引用我的 Scala 项目作为此 Python 库的依赖项/在此库中? 我想避免他们必须向spark-submit命令添加属性(即--jars )。

--jars--packages是 go 与 3rd 方库(如您的)的典型方式。

如果您想让他们使用您的库的体验不那么痛苦,您可能希望将带有所有额外参数的spark-submit命令包装到包装脚本中,这肯定会使调用更容易。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM