火花鑲木地板轉換問題與文件中的格式錯誤的行

Question

我有一個“\\ u0001”分隔文件讀取帶有spark用於鑲木地板轉換，我沒有任何架構問題，但是，數據之間有引號（“）沒有結束引用。我嘗試了不同的解決方案，但無法想象任何。

val df = sparkSession.sqlContext.read
    .format("com.databricks.spark.csv")
    .option("delimiter", "\u0001")
    //.option("quote", "\"")
    //.option("quote", null)
    //.option("quoteMode", "ALL")
    .option("header", "false")
    .option("mode","FAILFAST")
    .option("treatEmptyValuesAsNulls","true")
    .option("nullValue"," ")
    .option("ignoreLeadingWhiteSpace", "true")
    .option("ignoreTrailingWhiteSpace", "true")
    .schema(schema)
    .load(fileLocation)

提前致謝，感謝您的幫助

Answer 1

你可以使用sparkContext.hadoopConfiguration.set("textinputformat.record.delimiter","\")

並讀作textFile

val sentences = sparkContext.textFile(directoryPath)

火花鑲木地板轉換問題與文件中的格式錯誤的行

問題描述

1 個解決方案

解決方案1
0 2017-05-25 07:16:55

火花鑲木地板轉換問題與文件中的格式錯誤的行

問題描述

1 個解決方案

解決方案1 0 2017-05-25 07:16:55

解決方案1
0 2017-05-25 07:16:55