在 EMR 上的 PySpark 中运行自定义 Java 类

Question

我正在尝试在 AWS EMR 上的 PySpark 中使用 Cerner Bunsen 包进行 FHIR 处理，特别是 Bundles 类及其方法。 我正在使用 Apache Livy API 创建 spark 会话，

def create_spark_session(master_dns, kind, jars):
    # 8998 is the port on which the Livy server runs
    host = 'http://' + master_dns + ':8998'
    data = {'kind': kind, 'jars': jars}
    headers = {'Content-Type': 'application/json'}
    response = requests.post(host + '/sessions', data=json.dumps(data), headers=headers)
    logging.info(response.json())
    return response.headers

其中 kind = pyspark3 和 jars 是存放 jar (bunsen-shaded-1.4.7.jar) 的 S3 位置

数据转换尝试导入 jar 并通过以下方式调用方法：

# Setting the Spark Session and Pulling the Existing SparkContext
sc = SparkContext.getOrCreate()

# Cerner Bunsen
from py4j.java_gateway import java_import, JavaGateway
java_import(sc._gateway.jvm,"com.cerner.bunsen.Bundles")
func = sc._gateway.jvm.Bundles()

我收到的错误是

“py4j.protocol.Py4JError：调用 None.com.cerner.bunsen.Bundles 时发生错误。跟踪：\npy4j.Py4JException：构造函数 com.cerner.bunsen.Bundles([]) 不存在”

这是我第一次尝试使用 java_import，因此我们将不胜感激。

编辑：我稍微改变了转换脚本，现在看到了一个不同的错误。 我可以看到 jar 被添加到日志中，所以我确定它在那里并且 jars: jars 功能正在按预期工作。 新的转变是：

# Setting the Spark Session and Pulling the Existing SparkContext
sc = SparkContext.getOrCreate()

# Manage logging
#sc.setLogLevel("INFO")

# Cerner Bunsen
from py4j.java_gateway import java_import, JavaGateway
java_import(sc._gateway.jvm,"com.cerner.bunsen")
func_main = sc._gateway.jvm.Bundles
func_deep = sc._gateway.jvm.Bundles.BundleContainer

fhir_data_frame = func_deep.loadFromDirectory(spark,"s3://<bucket>/source_database/Patient",1)
fhir_data_frame_fromJson = func_deep.fromJson(fhir_data_frame)
fhir_data_frame_clean = func_main.extract_entry(spark,fhir_data_frame_fromJson,'patient')
fhir_data_frame_clean.show(20, False)

新的错误是：

“JavaPackage”对象不可调用

搜索此错误有点徒劳，但同样，如果有人有想法，我会很乐意采纳。

Answer 1

如果你想在 Pyspark 中使用 Scala/Java 函数，你还必须在类路径中添加 jar 包。 你可以用两种不同的方式做到这一点：

选项 1：在 Spark 中使用标志--jars提交

 spark-submit example.py --jars /path/to/bunsen-shaded-1.4.7.jar

选项2：将其添加到属性中的spark-defaults.conf文件中：

添加以下代码： path/to/spark/conf/spark-defaults.conf

# Comma-separated list of jars include on the driver and executor classpaths. 
spark.jars /path/to/bunsen-shaded-1.4.7.jar

在 EMR 上的 PySpark 中运行自定义 Java 类

问题描述

1 个解决方案

解决方案1
1 2020-01-22 16:57:08

在 EMR 上的 PySpark 中运行自定义 Java 类

问题描述

1 个解决方案

解决方案1 1 2020-01-22 16:57:08

解决方案1
1 2020-01-22 16:57:08