Scala Spark数据框-每行的总和为Array [Double]

Question

This is my basic Dataframe: 这是我的基本数据框：

root |-- user_id: string (nullable = true) 
     |-- review_id: string (nullable = true) 
     |-- review_influence: double (nullable = false)

The goal is to have the sum of review_influence for each user_id. 目标是获得每个user_id的review_influence之和。 So I tried to aggregate the data and sum it up like this: 所以我试图汇总数据并总结如下：

val review_influence_listDF = review_with_influenceDF
.groupBy("user_id")
.agg(collect_list("review_id") as("list_review_id"), collect_list("review_influence") as ("list_review_influence"))
.agg(sum($"list_review_influence"))

But I have this error: 但是我有这个错误：

org.apache.spark.sql.AnalysisException: cannot resolve 'sum(`list_review_influence`)' due to data type mismatch: function sum requires numeric types, not ArrayType(DoubleType,true);;

What can I do about it? 我该怎么办？

Answer 1

You can directly sum the column in the agg function: 您可以直接将agg函数中的列求和：

review_with_influenceDF
    .groupBy("user_id")
    .agg(collect_list($"review_id").as("list_review_id"), 
         sum($"review_influence").as("sum_review_influence"))

Scala Spark数据框-每行的总和为Array [Double]

问题描述

1 个解决方案

解决方案1
1 已采纳 2017-09-08 16:07:39

Scala Spark数据框-每行的总和为Array [Double]

问题描述

1 个解决方案

解决方案1 1 已采纳 2017-09-08 16:07:39

解决方案1
1 已采纳 2017-09-08 16:07:39