使用 Spark Scala 以文件名作為參數讀取 Excel 文件時出錯

Question

有人可以幫助我使用 Spark Scala Read API 讀取 excel 文件嗎？ 我嘗試將com.crealytics:spark-excel_2.11:0.13.1 （來自 Maven）安裝到帶有 Databricks Runtime 6.5 和 6.6（Apache Spark 2.4.5、Scala 2.11）的集群，但只有當我對文件路徑進行硬編碼時它才有效。 .

val df = spark.read
    .format("com.crealytics.spark.excel")
    .option("sheetName", "Listing_Attributed")
    .option("header", "true")
    .option("inferSchema", "false")
    .option("addColorColumns", "true") // Optional, default: false
    .option("badRecordsPath", Vars.rootSourcePath + "BadRecords/" + DataCategory)
    .option("dateFormat", "dd-MON-yy")
    .option("timestampFormat", "MM/dd/yyyy hh:mm:ss")
    .option("ignoreLeadingWhiteSpace",true)
    .option("ignoreTrailingWhiteSpace",true)
    .option("escape"," ")
    .load("/ABC/Test_Filename_6.12.20.xlsx")  // hard-coded path works...
//  .load(filepath)    //Filepath is a parameter and throws error, "java.io.IOException: GC overhead limit exceeded" (edited)

Answer 1

使用.option("location",inputPath) 如下

 val df = spark.read
        .format("com.crealytics.spark.excel")
        .option("sheetName", "Listing_Attributed")
        .option("header", "true")
        .option("location", inputPath)
        .load()

使用 Spark Scala 以文件名作為參數讀取 Excel 文件時出錯

問題描述

1 個解決方案

解決方案1
0 2020-07-29 09:15:44

使用 Spark Scala 以文件名作為參數讀取 Excel 文件時出錯

問題描述

1 個解決方案

解決方案1 0 2020-07-29 09:15:44

解決方案1
0 2020-07-29 09:15:44