Spark - 使用OpenCSV解析文件的序列化问题

Question

我正在使用Spark来处理csv文件。 最近我用opencsv替换了手动CSV行解析。 这是简化的代码

public class Main {

    public static void main(String[] args) {

        CSVParser parser = new CSVParserBuilder()
                .withSeparator(';')
                .build();

        SparkConf cfg = new SparkConf()
                .setMaster("local[4]")
                .setAppName("Testapp");
        JavaSparkContext sc = new JavaSparkContext(cfg);

        JavaRDD<String> textFile = sc.textFile("testdata.csv", 1);

        List<String> categories = textFile
                .map(line -> parser.parseLine(line)[10])
                .collect();
        System.out.println(categories);
    }
}

不幸的是，该代码不起作用。 它产生了一个例外

Caused by: java.io.NotSerializableException: com.opencsv.CSVParser
Serialization stack:
    - object not serializable (class: com.opencsv.CSVParser, value: com.opencsv.CSVParser@1290c49)
    - element of array (index: 0)
    - array (class [Ljava.lang.Object;, size 1)
    - field (class: java.lang.invoke.SerializedLambda, name: capturedArgs, type: class [Ljava.lang.Object;)
    - object (class java.lang.invoke.SerializedLambda, SerializedLambda[capturingClass=class test.Main, functionalInterfaceMethod=org/apache/spark/api/java/function/Function.call:(Ljava/lang/Object;)Ljava/lang/Object;, implementation=invokeStatic test/Main.lambda$main$49bd2722$1:(Lcom/opencsv/CSVParser;Ljava/lang/String;)Ljava/lang/String;, instantiatedMethodType=(Ljava/lang/String;)Ljava/lang/String;, numCaptured=1])
    - writeReplace data (class: java.lang.invoke.SerializedLambda)
    - object (class test.Main$$Lambda$19/429639728, test.Main$$Lambda$19/429639728@72456279)
    - field (class: org.apache.spark.api.java.JavaPairRDD$$anonfun$toScalaFunction$1, name: fun$1, type: interface org.apache.spark.api.java.function.Function)
    - object (class org.apache.spark.api.java.JavaPairRDD$$anonfun$toScalaFunction$1, <function1>)
    at org.apache.spark.serializer.SerializationDebugger$.improveException(SerializationDebugger.scala:40)
    at org.apache.spark.serializer.JavaSerializationStream.writeObject(JavaSerializer.scala:46)
    at org.apache.spark.serializer.JavaSerializerInstance.serialize(JavaSerializer.scala:100)
    at org.apache.spark.util.ClosureCleaner$.ensureSerializable(ClosureCleaner.scala:400)
    ... 12 more

看起来Spark试图序列化lambda表达式，不知怎的lamba表达式继续引用parser ，导致上述错误。

问题是：有没有办法避免该异常并在传递给Spark的lambda表达式中使用不可序列化的库？ 我真的不想实现自己的csv解析器。

Answer 1

Spark支持开箱即用的CSV文件

import org.apache.spark.sql.Row;
import org.apache.spark.sql.Dataset;

Dataset<Row> df = spark.read().format("csv")
                      .option("sep", ";")
                      .option("header", "true") //or "false" if no headers
                      .load("filename.csv");

编辑（提升评论到主要答案）

如果你确实需要它，你可以使用df.javaRDD()从DataFrame获取RDD，尽管最好使用DataSet / DataFrame API（例如参见这里）

Answer 2

我意识到我的问题有一个非常简单的解决方案。 任何导致序列化问题的外部库使用都可以包含在静态方法中。 方法parse隐藏了对parser引用。 这种方法显然不是一个完美的解决方案，但有效。

public class Main {

    private static CSVParser parser = new CSVParserBuilder()
            .withSeparator(';')
            .build();

    public static void main(String[] args) {
        SparkConf cfg = new SparkConf()
                .setMaster("local[4]")
                .setAppName("Testapp");
        JavaSparkContext sc = new JavaSparkContext(cfg);

        JavaRDD<String> textFile = sc.textFile("testdata.csv", 1);

        List<String> categories = textFile
                .map(line -> parse(line)[0])
                .collect();
        System.out.println(categories);
    }

    static String[] parse(String line) throws IOException {
        return parser.parseLine(line);
    }
}

Spark - 使用OpenCSV解析文件的序列化问题

问题描述

2 个解决方案

解决方案1
3 已采纳 2018-12-17 15:01:41

解决方案2
0 2018-12-18 13:11:39

Spark - 使用OpenCSV解析文件的序列化问题

问题描述

2 个解决方案

解决方案1 3 已采纳 2018-12-17 15:01:41

解决方案2 0 2018-12-18 13:11:39

解决方案1
3 已采纳 2018-12-17 15:01:41

解决方案2
0 2018-12-18 13:11:39