![](/img/trans.png)
[英]Spark CSV issue with new line (LF) character in the field of file imported using scala
[英]Replace new line (\n) character in csv file - spark scala
只是為了說明問題,我已使用了testset csv文件。 但是在實際情況下,該問題必須處理的數據量不止一個TeraByte。
我有一個CSV文件,其中各列用引號(“ col1”)括起來。 但是,當數據導入完成時。 一列包含換行符(\\ n)。 當我想將它們另存為Hive表時,這導致了很多問題。
我的想法是將\\ n字符替換為“ |” 管火花。
到目前為止,我實現了:
1. val test = sqlContext.load(
"com.databricks.spark.csv",
Map("path" -> "test_set.csv", "header" -> "true", "inferSchema" -> "true", "delimiter" -> "," , "quote" -> "\"", "escape" -> "\\" ,"parserLib" -> "univocity" ))#read a csv file
2. val dataframe = test.toDF() #convert to dataframe
3. dataframe.foreach(println) #print
4. dataframe.map(row => {
val row4 = row.getAs[String](4)
val make = row4.replaceAll("[\r\n]", "|")
(make)
}).collect().foreach(println) #replace not working for me
樣本集:
(17 , D73 ,525, 1 ,testing\n , 90 ,20.07.2011 ,null ,F10 , R)
(17 , D73 ,526, 1 ,null , 89 ,20.07.2011 ,null ,F10 , R)
(17 , D73 ,529, 1 ,once \n again, 10 ,20.07.2011 ,null ,F10 , R)
(17 , D73 ,531, 1 ,test3\n , 10 ,20.07.2011 ,null ,F10 , R)
預期結果集:
(17 , D73 ,525, 1 ,testing| , 90 ,20.07.2011 ,null ,F10 , R)
(17 , D73 ,526, 1 ,null , 89 ,20.07.2011 ,null ,F10 , R)
(17 , D73 ,529, 1 ,once | again, 10 ,20.07.2011 ,null ,F10 , R)
(17 , D73 ,531, 1 ,test3| , 10 ,20.07.2011 ,null ,F10 , R)
對我有用的是:
val rep = "\n123\n Main Street\n".replaceAll("[\\r\\n]", "|") rep: String = |123| Main Street|
但是為什么我不能以Tuple為基礎呢?
val dataRDD = lines_wo_header.map(line => line.split(";")).map(row => (row(0).toLong, row(1).toString,
row(2).toLong, row(3).toLong,
row(4).toString, row(5).toLong,
row(6).toString, row(7).toString, row(8).toString,row(9).toString))
dataRDD.map(row => {
val wert = row._5.replaceAll("[\\r\\n]", "|")
(row._1,row._2,row._3,row._4,wert,row._6, row._7,row._8,row._9,row._10)
}).collect().foreach(println)
Spark-版本1.3.1
如果可以使用Spark SQL 1.5或更高版本,則可以考慮使用可用於列的函數 。 假設您不知道(或沒有)這些列的名稱,則可以按照以下代碼片段中的方法進行操作:
val df = test.toDF()
import org.apache.spark.sql.functions._
val newDF = df.withColumn(df.columns(4), regexp_replace(col(df.columns(4)), "[\\r\\n]", "|"))
如果知道該列的名稱,則在兩種情況下都可以用其名稱替換df.columns(4)
。
希望對您有所幫助。 干杯。
我的想法是將\\ n字符替換為“ |” 管火花。
我嘗試了replaceAll方法,但無法正常工作。 這是達到相同目的的替代方法:
val test = sq.load(
"com.databricks.spark.csv",
Map("path" -> "file:///home/veda/sample.csv", "header" -> "false", "inferSchema" -> "true", "delimiter" -> "," , "quote" -> "\"", "escape" -> "\\" ,"parserLib" -> "univocity" ))
val dataframe = test.toDF()
val mapped = dataframe.map({
row => {
val str = row.get(0).toString()
var fnal=new StringBuilder(str)
//replace newLine
var newLineIndex=fnal.indexOf("\\n")
while(newLineIndex != -1){
fnal.replace(newLineIndex,newLineIndex+2,"|")
newLineIndex = fnal.indexOf("\\n")
}
//replace carriage returns
var cgIndex=fnal.indexOf("\\r")
while(cgIndex != -1){
fnal.replace(cgIndex,cgIndex+2,"|")
cgIndex = fnal.indexOf("\\r")
}
(fnal.toString()) //tuple modified
}
})
mapped.collect().foreach(println)
注意:您可能需要將重復的代碼移至單獨的功能。
spark 2.2 JIRA中添加了對CSV的多行支持,而spark 2.2尚未發布。
我曾經遇到過同樣的問題,並通過我們hadoop輸入格式和閱讀器的幫助解決了該問題。
從git復制InputFormat和reader類,並實現如下:
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
//implementation
JavaPairRDD<LongWritable, Text> rdd =
context.
newAPIHadoopFile(path, FileCleaningInputFormat.class, null, null, new Configuration());
JavaRDD<String> inputWithMultiline= rdd.map(s -> s._2().toString())
另一個解決方案 -使用Apache Crunch中的CSVInputFormat
讀取CSV文件,然后使用opencsv解析每個CSV行:
sparkContext.newAPIHadoopFile(path, CSVInputFormat.class, null, null, new Configuration()).map(s -> s._2().toString());
Apache緊縮Maven依賴項:
<dependency>
<groupId>org.apache.crunch</groupId>
<artifactId>crunch-core</artifactId>
<version>0.15.0</version>
</dependency>
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.