簡體   English   中英

使用 Spark Scala 以文件名作為參數讀取 Excel 文件時出錯

[英]Error while reading an Excel file using Spark Scala with filename as a parameter

有人可以幫助我使用 Spark Scala Read API 讀取 excel 文件嗎? 我嘗試將com.crealytics:spark-excel_2.11:0.13.1 (來自 Maven)安裝到帶有 Databricks Runtime 6.5 和 6.6(Apache Spark 2.4.5、Scala 2.11)的集群,但只有當我對文件路徑進行硬編碼時它才有效。 .

val df = spark.read
    .format("com.crealytics.spark.excel")
    .option("sheetName", "Listing_Attributed")
    .option("header", "true")
    .option("inferSchema", "false")
    .option("addColorColumns", "true") // Optional, default: false
    .option("badRecordsPath", Vars.rootSourcePath + "BadRecords/" + DataCategory)
    .option("dateFormat", "dd-MON-yy")
    .option("timestampFormat", "MM/dd/yyyy hh:mm:ss")
    .option("ignoreLeadingWhiteSpace",true)
    .option("ignoreTrailingWhiteSpace",true)
    .option("escape"," ")
    .load("/ABC/Test_Filename_6.12.20.xlsx")  // hard-coded path works...
//  .load(filepath)    //Filepath is a parameter and throws error, "java.io.IOException: GC overhead limit exceeded" (edited)

使用.option("location",inputPath) 如下

 val df = spark.read
        .format("com.crealytics.spark.excel")
        .option("sheetName", "Listing_Attributed")
        .option("header", "true")
        .option("location", inputPath)
        .load()

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM