簡體   English   中英

在 emr 集群上安裝 com.databricks.spark.xml

[英]Install com.databricks.spark.xml on emr cluster

有誰知道如何在 EMR 集群上安裝com.databricks.spark.xml包。

我成功連接到主 emr,但不知道如何在 emr 集群上安裝軟件包。

代碼

sc.install_pypi_package("com.databricks.spark.xml")

在 EMR 主節點上:

cd /usr/lib/spark/jars
sudo wget https://repo1.maven.org/maven2/com/databricks/spark-xml_2.11/0.9.0/spark-xml_2.11-0.9.0.jar

確保根據您的 Spark 版本和https://github.com/databricks/spark-xml 中提供的指南選擇正確的 jar。

然后,啟動您的 Jupyter 筆記本,您應該能夠運行以下命令:

df = spark.read.format('com.databricks.spark.xml').options(rootTag='objects').options(rowTag='object').load("s3://bucket-name/sample.xml")

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM