使用值使用 groupbykey 后對 rdd 進行排序

Question

我有JavaPairRDD作為

JavaPairRDD<String, Iterable<Row>> rdd = mydataset.orderBy("orderfield1", "orderfield2").javaRDD().mapToPair(row -> new Tuple2<>(row.getAs("id").toString(), row)).groupByKey()

由於groupbykey()不維護訂單， orderby在這里不起作用。 我想使用數據集中的一些字段對Iterable<Row>進行排序。

Answer 1

您可以將Iterable轉換為List ，然后像下面那樣對該列表進行排序。 我假設您的排序字段稱為x並且它是 String 類型，但您顯然可以根據您的具體情況進行調整。

String sortingField = "x"
JavaPairRDD<String, List<Row>> rdd = mydataset
    .javaRDD()
    .mapToPair(row -> new Tuple2<>(row.getAs("id").toString(), row))
    .groupByKey()
    .mapValues(it -> {
        List<Row> rows = new ArrayList<>();
        it.forEach(rows::add);
        rows.sort(
            (Row a, Row b) -> a.<String>getAs(sortingField).compareTo(b.<String>getAs(sortingField))
        );
        return rows;
    });

請注意，在 scala 中這樣寫起來要簡單得多：

val rdd = mydataset
    .rdd
    .map(row => (row.getAs("id").toString, row))
    .groupByKey
    .mapValues( _.toSeq.sortBy(_.getAs[String]("x")))

使用值使用 groupbykey 后對 rdd 進行排序

問題描述

1 個解決方案

解決方案1
0 已采納 2023-01-05 09:27:02

使用值使用 groupbykey 后對 rdd 進行排序

問題描述

1 個解決方案

解決方案1 0 已采納 2023-01-05 09:27:02

解決方案1
0 已采納 2023-01-05 09:27:02