繁体   English   中英

数据集平面图组缺少参数类型

[英]dataset flatmap groupBy missing parameter type

我有一个数据集,其中包含一个包含数字列表的列。

我想计算所有这些列表中每个数字的出现。 所以我做了一个flatMap,以获取所有整数的集合。 我想对其进行分组,所以每个数字只有一次,然后添加出现的次数(在第二列或其他内容中)。 到目前为止,我的代码:

val counts = dataset.flatMap(_.intLists).groupBy(i => identity(i)).count

但它总是说“ i”缺少参数类型。 我想我需要说这是一个Int,但是我该怎么做? 还是我错过了完全不同的东西?

在类路径中使用Spark 2.0.2依赖项测试您的代码,我看到groupBy方法期望使用StringColumn

您可能需要使用带有函数的groupByKey方法来提取分组键(在您的示例中为identity )。

val counts = dataset.flatMap(_.intLists).groupByKey(identity).count

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM