簡體   English   中英

Spark java:在多個列上聚合並重命名它們

[英]Spark java: agg on multiple columns and rename them

我想在我之前不知道的多個列上對我的數據集進行分組,因此.agg()允許傳遞一個Map ,其中鍵是列名,值是聚合名稱,對於例如我可以這樣做:

    for(String column:columns)
        map.put(column, "sum");
    ds.groupBy("someColumn").agg(map)

到這里為止都很好,但我想保留原來的列名並且沒有這樣的東西

'|sum(column1)|sum(column12)|...'

我試過這樣做,但沒有奏效:

map.put(column, "sum alias " + column);

是否可以使用 java api 做到這一點?

嘗試這個-

我已將列名作為別名提供給sum(column)

    Dataset<Row> df = spark.range(2).withColumn("value", lit(2));
        df.show(false);
        df.printSchema();

        /**
         * +---+-----+
         * |id |value|
         * +---+-----+
         * |0  |2    |
         * |1  |2    |
         * +---+-----+
         *
         * root
         *  |-- id: long (nullable = false)
         *  |-- value: integer (nullable = false)
         */
        Map<String, String> map = new HashMap<>();
        for(String column:df.columns())
            map.put(column, "sum");

        List<Column> cols = map.entrySet().stream().map(c -> expr(String.format("%s(%s) as %s", c.getValue(), c.getKey(), c.getKey())))
                .collect(Collectors.toList());


        df.agg(cols.get(0), toScalaSeq(cols.subList(1, cols.size()))).show(false);
        /**
         * +---+-----+
         * |id |value|
         * +---+-----+
         * |1  |4    |
         * +---+-----+
         */

效用-

 <T> Buffer<T> toScalaSeq(List<T> list) {
        return JavaConversions.asScalaBuffer(list);
    }

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM