[英]spark parquet conversion issue with malformed lines in file
我有一個“\\ u0001”分隔文件讀取帶有spark用於鑲木地板轉換,我沒有任何架構問題,但是,數據之間有引號(“)沒有結束引用。我嘗試了不同的解決方案,但無法想象任何。
val df = sparkSession.sqlContext.read
.format("com.databricks.spark.csv")
.option("delimiter", "\u0001")
//.option("quote", "\"")
//.option("quote", null)
//.option("quoteMode", "ALL")
.option("header", "false")
.option("mode","FAILFAST")
.option("treatEmptyValuesAsNulls","true")
.option("nullValue"," ")
.option("ignoreLeadingWhiteSpace", "true")
.option("ignoreTrailingWhiteSpace", "true")
.schema(schema)
.load(fileLocation)
提前致謝,感謝您的幫助
你可以使用sparkContext.hadoopConfiguration.set("textinputformat.record.delimiter","\")
並讀作textFile
val sentences = sparkContext.textFile(directoryPath)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.