如何在Zeppelin上运行Spark以分析xml文件

Question

我可以通过bin/spark-shell --packages com.databricks:spark-xml_2.11:0.3.0运行Spark shell来分析xml文件，例如：

import org.apache.spark.sql.SQLContext

val sqlContext = new SQLContext(sc)
val df = sqlContext.read
    .format("com.databricks.spark.xml")
    .option("rowTag", "book")
    .load("books.xml")

但是我该如何运行Zeppelin。 Zeppelin在开始导入com.databricks.spark.xml是否需要一些参数？ 现在我得到：

java.lang.RuntimeException：无法在org.apache.spark.sql.sources.ResolvedDataSource $处的scala.sys.package $ .error（package.scala：27）处加载数据源类com.databricks.spark.xml。 org.apache.spark.sql.sources.ResolvedDataSource $ .apply（ddl.scala：233）的org.apache.spark.sql.DataFrameReader.load（DataFrameReader.scala：114）的.lookupDataSource（ddl.scala：220）在org.apache.spark.sql.DataFrameReader.load（DataFrameReader.scala：104）在$ iwC $$ iwC $$ iwC $$ iwC $$ iwC $$ iwC $$ iwC $$ iwC。（：26）在$ iwC $$ iwC $$ iwC $ iwC $$ iwC $$ iwC $$ iwC。（：31）at $ iwC $$ iwC $$ iwC $ iwC $$ iwC $$ iwC。（：33）at $ iwC $$ iwC $$ iwC $$ iwC $ iwC。（：35）at $ iwC $$ iwC $$ iwC $$ iwC。（：37）at $ iwC $ iwC $$ iwC。（：39）at $ iwC $$ iwC。（：41）at $ iwC。（：43）at（：45）at。（：49）at。（）at。（：7）at。（：at at。（）at at $ print（）at sun。在java.lang.reflect.Me.com上的sun.reflect.DelegatingMethodAccessorImpl.invoke（DelegatingMethodAccessorImpl.java:43）上的Reflection.NativeMethodAccessorImpl.invoke0（本机方法）在sun.reflect.NativeMethodAccessorImpl.invoke（NativeMethodAccessorImpl.java:62） org.apache.spark.repl.SparkIMain $ ReadEvalPrint.call（SparkIMain.scala：1065）上的thod.invoke（Method.java:497）在org.apache.spark.repl.SparkIMain $ Request.loadAndRun（SparkIMain.scala）上的thod.invoke（Method.java:497） 1338），位于org.apache.spark.repl.SparkIMain.loadAndRunReq $ 1（SparkIMain.scala：840），位于org.apache.spark.repl.SparkIMain.interpret（SparkIMain.scala：871），位于org.apache.spark.repl。 org.apache.zeppelin.spark.SparkInterpreter.interpret（SparkInterpreter.java:674）上的org.apache.zeppelin.spark.SparkInterpreter.interpretInput（SparkInterpreter.java:709）上的SparkIMain.interpret（SparkIMain.scala：819） org.apache.zeppelin.interpreter.ClassloaderInterpreter.interpret（ClassloaderInterpreter.java:57）处的.apache.zeppelin.spark.SparkInterpreter.interpret（SparkInterpreter.java:667）org.apache.zeppelin。解释器。 .java：93），位于org.apache.zeppelin.scheduler.Job的org.apache.zeppelin.interpreter.remote.RemoteInterpreterServer $ InterpretJob.jobRun（RemoteInterpreterServer.java:300）。在java.util.concurrent.Executors $ RunnableAdapter.call（Executors.java:511）在org.apache.zeppelin.scheduler.FIFOScheduler $ 1.run（FIFOScheduler.java:134）处运行（Job.java:169）。 java.util.concurrent.ScheduledThreadPoolExecutor $ ScheduledFutureTask.access $ 201（ScheduledThreadPoolExecutor.java:180）处的util.concurrent.FutureTask.run（FutureTask.java:266）在java.util.concurrent.ScheduledThreadPoolExecutor $ ScheduledFutureTask.run（ScheduledThreadPoolExecutor.java:180）：293）在java.util.concurrent.ThreadPoolExecutor.runWorker（ThreadPoolExecutor.java:1142）在java.util.concurrent.ThreadPoolExecutor $ Worker.run（ThreadPoolExecutor.java:617）在java.lang.Thread.run（Thread。 java：745）

Answer 1

在Zeppelin中，需要在创建SparkContext之前调用这些依赖项。

在单独的单元格中，添加并运行以下命令

%dep
z.reset()
z.addRepo("Spark Packages Repo").url("http://dl.bintray.com/spark-packages/maven")
z.load("com.databricks:spark-xml_2.11:0.3.0")

如果出现以下错误：“必须在启动SparkContext之前添加依赖项”，只需重新启动解释器或Zeppelin。

如何在Zeppelin上运行Spark以分析xml文件

问题描述

1 个解决方案

解决方案1
5 已采纳 2016-04-27 18:39:22

如何在Zeppelin上运行Spark以分析xml文件

问题描述

1 个解决方案

解决方案1 5 已采纳 2016-04-27 18:39:22

解决方案1
5 已采纳 2016-04-27 18:39:22