[英]Install com.databricks.spark.xml on emr cluster
有誰知道如何在 EMR 集群上安裝com.databricks.spark.xml包。
我成功連接到主 emr,但不知道如何在 emr 集群上安裝軟件包。
代碼
sc.install_pypi_package("com.databricks.spark.xml")
在 EMR 主節點上:
cd /usr/lib/spark/jars
sudo wget https://repo1.maven.org/maven2/com/databricks/spark-xml_2.11/0.9.0/spark-xml_2.11-0.9.0.jar
確保根據您的 Spark 版本和https://github.com/databricks/spark-xml 中提供的指南選擇正確的 jar。
然后,啟動您的 Jupyter 筆記本,您應該能夠運行以下命令:
df = spark.read.format('com.databricks.spark.xml').options(rootTag='objects').options(rowTag='object').load("s3://bucket-name/sample.xml")
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.