將Spark數據框中的每個分區記錄寫入xml文件

Question

我必須在spark數據幀中每個分區的文件中進行記錄計數，然后將輸出寫入XML文件。

這是我的數據框。

dfMainOutputFinalWithoutNull.coalesce(1).write.partitionBy("DataPartition","StatementTypeCode")
  .format("csv")
  .option("nullValue", "")
  .option("header", "true")
  .option("codec", "gzip")
  .save("s3://trfsdisu/SPARK/FinancialLineItem/output")

現在，我必須計算每個分區中每個文件中的記錄數，然后將輸出寫入XML文件。

這就是我試圖做到的。

val count =dfMainOutputFinalWithoutNull.groupBy("DataPartition","StatementTypeCode").count

  count.write.format("com.databricks.spark.xml")
  .option("rootTag", "items")
  .option("rowTag", "item")
  .save("s3://trfsdisu/SPARK/FinancialLineItem/Descr")

我能夠打印每個分區的總記錄數並進行打印，但是當我嘗試創建xml文件時，我遇到了以下錯誤。

java.lang.ClassNotFoundException: Failed to find data source: com.databricks.spark.xml. Please find packages at http://spark.apache.org/third-party-projects.html

我正在使用Spark 2.2.0, Zeppelin 0.7.2

所以我必須要導入com.databricks.spark.xml ，但是為什么要使用csv文件，如果我不導入com.databricks.spark.csv 。

另外，是否可以使用緩存dfMainOutputFinalWithoutNull因為我將使用它兩次來寫入其數據，然后計算其分區記錄，然后寫入xml文件？

我添加了這種依賴

  <!-- https://mvnrepository.com/artifact/com.databricks/spark-xml_2.10 -->
<dependency>
    <groupId>com.databricks</groupId>
    <artifactId>spark-xml_2.10</artifactId>
    <version>0.2.0</version>
</dependency>

並重新啟動解釋器。 然后我得到了以下錯誤。

java.lang.NullPointerException
    at org.apache.zeppelin.spark.Utils.invokeMethod(Utils.java:38)
    at org.apache.zeppelin.spark.Utils.invokeMethod(Utils.java:33)
    at org.apache.zeppelin.spark.SparkInterpreter.createSparkContext_2(SparkInterpreter.java:391)
    at org.apache.zeppelin.spark.SparkInterpreter.createSparkContext(SparkInterpreter.java:380)
    at org.apache.zeppelin.spark.SparkInterpreter.getSparkContext(SparkInterpreter.java:146)

Answer 1

我會回答我的問題

所以我在zepplin中添加了以下依賴項

Scala 2.11

groupId: com.databricks
artifactId: spark-xml_2.11
version: 0.4.1

在下面的Zepplin中添加

com.databricks:spark-xml_2.11:0.4.1

然后我就可以創建文件了。

將Spark數據框中的每個分區記錄寫入xml文件

問題描述

1 個解決方案

解決方案1
0 已采納 2017-10-11 06:16:32

將Spark數據框中的每個分區記錄寫入xml文件

問題描述

1 個解決方案

解決方案1 0 已采納 2017-10-11 06:16:32

解決方案1
0 已采納 2017-10-11 06:16:32