[英]How to include external Spark library while using PySpark in Jupyter notebook
[英]Referencing a Spark (Scala) library from a PySpark library
我将为 PySpark 客户端构建一个 Python 库。 这个库将调用我已经构建并投入生产的 Spark (Scala) 库。 作为动机(也许还有健全性检查),他们将调用的 Python 库看起来像这样:
from pyspark.sql.DataFrame import PyDataFrame
def process(python_data_frame):
sc = python_data_frame.rdd.context
sql_context = python_data_frame.sql_ctx
processed_scala_df = sc._jvm.com.mayonesa.ScalaClass.process(python_data_frame._jdf)
return PyDataFrame(processed_scala_df, sql_context)
我想让我的 PySpark 客户尽可能轻松地导入/使用这个库。 我将如何引用我的 Scala 项目作为此 Python 库的依赖项/在此库中? 我想避免他们必须向spark-submit
命令添加属性(即--jars
)。
--jars
或--packages
是 go 与 3rd 方库(如您的)的典型方式。
如果您想让他们使用您的库的体验不那么痛苦,您可能希望将带有所有额外参数的spark-submit
命令包装到包装脚本中,这肯定会使调用更容易。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.