替換CSV文件中的新行（\\ n）字符-Spark Scala

Question

只是為了說明問題，我已使用了testset csv文件。 但是在實際情況下，該問題必須處理的數據量不止一個TeraByte。

我有一個CSV文件，其中各列用引號（“ col1”）括起來。 但是，當數據導入完成時。 一列包含換行符（\\ n）。 當我想將它們另存為Hive表時，這導致了很多問題。

我的想法是將\\ n字符替換為“ |” 管火花。

到目前為止，我實現了：

1. val test = sqlContext.load(
        "com.databricks.spark.csv",
        Map("path" -> "test_set.csv", "header" -> "true", "inferSchema" -> "true", "delimiter" -> "," , "quote" -> "\"", "escape" -> "\\" ,"parserLib" -> "univocity" ))#read a csv file

 2.   val dataframe = test.toDF() #convert to dataframe

  3.    dataframe.foreach(println) #print

    4. dataframe.map(row => {
        val row4 = row.getAs[String](4)
        val make = row4.replaceAll("[\r\n]", "|") 
        (make)
      }).collect().foreach(println) #replace not working for me

樣本集：

(17 , D73 ,525, 1  ,testing\n    ,  90 ,20.07.2011 ,null ,F10 , R)
 (17 , D73 ,526, 1  ,null         ,  89 ,20.07.2011 ,null ,F10 , R)
 (17 , D73 ,529, 1  ,once \n again,  10 ,20.07.2011 ,null ,F10 , R)
 (17 , D73 ,531, 1  ,test3\n      ,  10 ,20.07.2011 ,null ,F10 , R)

預期結果集：

(17 , D73 ,525, 1  ,testing|    ,  90 ,20.07.2011 ,null ,F10 , R)
 (17 , D73 ,526, 1  ,null         ,  89 ,20.07.2011 ,null ,F10 , R)
 (17 , D73 ,529, 1  ,once | again,  10 ,20.07.2011 ,null ,F10 , R)
 (17 , D73 ,531, 1  ,test3|      ,  10 ,20.07.2011 ,null ,F10 , R)

對我有用的是：

val rep = "\n123\n Main Street\n".replaceAll("[\\r\\n]", "|") rep: String = |123| Main Street|

但是為什么我不能以Tuple為基礎呢？

 val dataRDD = lines_wo_header.map(line => line.split(";")).map(row => (row(0).toLong, row(1).toString, 
                                               row(2).toLong, row(3).toLong, 
                                               row(4).toString, row(5).toLong,
                                               row(6).toString, row(7).toString, row(8).toString,row(9).toString)) 

dataRDD.map(row => {
                val wert = row._5.replaceAll("[\\r\\n]", "|") 
                (row._1,row._2,row._3,row._4,wert,row._6, row._7,row._8,row._9,row._10)
                }).collect().foreach(println)

Spark-版本1.3.1

Answer 1

如果可以使用Spark SQL 1.5或更高版本，則可以考慮使用可用於列的函數。 假設您不知道（或沒有）這些列的名稱，則可以按照以下代碼片段中的方法進行操作：

val df = test.toDF()

import org.apache.spark.sql.functions._
val newDF = df.withColumn(df.columns(4), regexp_replace(col(df.columns(4)), "[\\r\\n]", "|"))

如果知道該列的名稱，則在兩種情況下都可以用其名稱替換df.columns(4) 。

希望對您有所幫助。 干杯。

Answer 2

我的想法是將\\ n字符替換為“ |” 管火花。

我嘗試了replaceAll方法，但無法正常工作。 這是達到相同目的的替代方法：

val test = sq.load(
        "com.databricks.spark.csv",
        Map("path" -> "file:///home/veda/sample.csv", "header" -> "false", "inferSchema" -> "true", "delimiter" -> "," , "quote" -> "\"", "escape" -> "\\" ,"parserLib" -> "univocity" ))

val dataframe = test.toDF()

val mapped = dataframe.map({
    row => {
    val str = row.get(0).toString()
    var fnal=new StringBuilder(str)
    //replace newLine 
    var newLineIndex=fnal.indexOf("\\n")
    while(newLineIndex != -1){
        fnal.replace(newLineIndex,newLineIndex+2,"|")
        newLineIndex = fnal.indexOf("\\n")                  
    }

    //replace carriage returns
    var cgIndex=fnal.indexOf("\\r")
    while(cgIndex != -1){
        fnal.replace(cgIndex,cgIndex+2,"|")
        cgIndex = fnal.indexOf("\\r")                   
    }

    (fnal.toString()) //tuple modified

    }
})

mapped.collect().foreach(println)

注意：您可能需要將重復的代碼移至單獨的功能。

Answer 3

spark 2.2 JIRA中添加了對CSV的多行支持，而spark 2.2尚未發布。

我曾經遇到過同樣的問題，並通過我們hadoop輸入格式和閱讀器的幫助解決了該問題。

從git復制InputFormat和reader類，並實現如下：

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;

//implementation

 JavaPairRDD<LongWritable, Text> rdd =
                context.
                        newAPIHadoopFile(path, FileCleaningInputFormat.class, null, null, new Configuration());
JavaRDD<String> inputWithMultiline= rdd.map(s -> s._2().toString())

另一個解決方案 -使用Apache Crunch中的CSVInputFormat讀取CSV文件，然后使用opencsv解析每個CSV行：

sparkContext.newAPIHadoopFile(path, CSVInputFormat.class, null, null, new Configuration()).map(s -> s._2().toString());

Apache緊縮Maven依賴項：

 <dependency>
      <groupId>org.apache.crunch</groupId>
      <artifactId>crunch-core</artifactId>
      <version>0.15.0</version>
  </dependency>

替換CSV文件中的新行（\\ n）字符-Spark Scala

問題描述

3 個解決方案

解決方案1
2 2016-05-02 20:15:34

解決方案2
0 2016-05-04 06:45:31

解決方案3
0 2017-07-13 17:26:53

替換CSV文件中的新行（\\ n）字符-Spark Scala

問題描述

3 個解決方案

解決方案1 2 2016-05-02 20:15:34

解決方案2 0 2016-05-04 06:45:31

解決方案3 0 2017-07-13 17:26:53

解決方案1
2 2016-05-02 20:15:34

解決方案2
0 2016-05-04 06:45:31

解決方案3
0 2017-07-13 17:26:53