大清單FlatMap Java Spark

Question

我在JavaPairRDD<Integer, List<String>>有一個很大的列表，我想做一個flatMap來獲取列表條目的所有可能組合，這樣我最終得到JavaPairRDD<Integer, Tuple2<String,String>> 。 基本上如果我有類似的東西

(1, ["A", "B", "C"])

我想得到：

(1, <"A","B">) (1, <"A", "C">) (1, <"B", "C")

問題在於大型列表，因為我所做的是通過在輸入列表上嵌套循環來創建大型Tuple2對象列表。 有時這個列表不適合內存。 我發現了這一點，但不確定如何在Java中實現它： Spark FlatMap函數用於巨大的列表

Answer 1

您可能希望對列表進行flatMap ，然后在過濾相等值之前將RDD到自身：

JavaPairRDD<Integer, List<String>> original = // ...
JavaPairRDD<Integer, String> flattened = original.flatMapValues(identity());
JavaPairRDD<Integer, Tuple2<String, String>> joined = flattened.join(flattened);
JavaPairRDD<Integer, Tuple2<String, String>> filtered = 
    joined.filter(new Function<Tuple2<Integer, Tuple2<String, String>>, Boolean> () {
        @Override
        public Boolean call(Tuple2<Integer, Tuple2<String, String>> kv) throws Exception {
            return kv._2()._1().equals(kv._2()._2());
        }
    });

Answer 2

取決於你的數據集有多大，在我的工作中它通常需要處理100-200GB數據集使用FlatMap和flatMapToPair兩者都適用於高密集計算。 以下示例

JavaPairRDD<Integer, List<String>>= DatasetsRDD.
    .flatMapToPair(x->{
    return xx;
    });

此外，如果您的數據集很大，您可以嘗試使用spark persistance to disk

Storage Level   

    MEMORY_ONLY
    MEMORY_ONLY_SER 
    MEMORY_AND_DISK_SER 
    DISK_ONLY
    MEMORY_ONLY_2

References: https://spark.apache.org/docs/latest/rdd-programming-guide.html

大清單FlatMap Java Spark

問題描述

2 個解決方案

解決方案1
2 已采納 2016-07-25 19:34:25

解決方案2
1 2017-08-03 14:26:26

大清單FlatMap Java Spark

問題描述

2 個解決方案

解決方案1 2 已采納 2016-07-25 19:34:25

解決方案2 1 2017-08-03 14:26:26

解決方案1
2 已采納 2016-07-25 19:34:25

解決方案2
1 2017-08-03 14:26:26