在 Spark 1.X 中將 Excel 文件轉換為 csv

Question

是否有使用 Spark 1.X 將 Excel 文件轉換為 csv 的工具？ 執行此教程時出現此問題https://github.com/ZuInnoTe/hadoopoffice/wiki/Read-Excel-document-using-Spark-1.x

Exception in thread "main" java.lang.NoClassDefFoundError: org/zuinnote/hadoop/office/format/mapreduce/ExcelFileInputFormat
        at org.zuinnote.spark.office.example.excel.SparkScalaExcelIn$.convertToCSV(SparkScalaExcelIn.scala:63)
        at org.zuinnote.spark.office.example.excel.SparkScalaExcelIn$.main(SparkScalaExcelIn.scala:56)
        at org.zuinnote.spark.office.example.excel.SparkScalaExcelIn.main(SparkScalaExcelIn.scala)
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:498)
        at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:731)
        at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:181)
        at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:206)
        at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:121)
        at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
Caused by: java.lang.ClassNotFoundException: org.zuinnote.hadoop.office.format.mapreduce.ExcelFileInputFormat
        at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:357)

Answer 1

Spark 無法在類路徑中找到org.zuinnote.hadoop.office.format.mapreduce.ExcelFileInputFormat文件格式類。

使用--jars參數提供以下依賴項到 spark- --jars

<!-- https://mvnrepository.com/artifact/com.github.zuinnote/hadoopoffice-fileformat -->
<dependency>
    <groupId>com.github.zuinnote</groupId>
    <artifactId>hadoopoffice-fileformat</artifactId>
    <version>1.0.4</version>
</dependency>

命令：

spark-submit --jars hadoopoffice-fileformat-1.0.4.jar  \
#rest of the command arguments

Answer 2

您必須構建一個包含所有必要依賴項的胖 jar。 HadoopOffice 頁面上的示例項目展示了如何構建一個。 一個你構建的胖/超級罐子，你只需在 Spark 峰會上使用它。

在 Spark 1.X 中將 Excel 文件轉換為 csv

問題描述

2 個解決方案

解決方案1
1 2017-12-13 16:05:19

解決方案2
0 2018-10-01 22:04:01

在 Spark 1.X 中將 Excel 文件轉換為 csv

問題描述

2 個解決方案

解決方案1 1 2017-12-13 16:05:19

解決方案2 0 2018-10-01 22:04:01

解決方案1
1 2017-12-13 16:05:19

解決方案2
0 2018-10-01 22:04:01