簡體   English   中英

火花鑲木地板轉換問題與文件中的格式錯誤的行

[英]spark parquet conversion issue with malformed lines in file

我有一個“\\ u0001”分隔文件讀取帶有spark用於鑲木地板轉換,我沒有任何架構問題,但是,數據之間有引號(“)沒有結束引用。我嘗試了不同的解決方案,但無法想象任何。

val df = sparkSession.sqlContext.read
    .format("com.databricks.spark.csv")
    .option("delimiter", "\u0001")
    //.option("quote", "\"")
    //.option("quote", null)
    //.option("quoteMode", "ALL")
    .option("header", "false")
    .option("mode","FAILFAST")
    .option("treatEmptyValuesAsNulls","true")
    .option("nullValue"," ")
    .option("ignoreLeadingWhiteSpace", "true")
    .option("ignoreTrailingWhiteSpace", "true")
    .schema(schema)
    .load(fileLocation)

提前致謝,感謝您的幫助

你可以使用sparkContext.hadoopConfiguration.set("textinputformat.record.delimiter","\")

並讀作textFile

val sentences = sparkContext.textFile(directoryPath)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM