[英]dataset flatmap groupBy missing parameter type
我有一个数据集,其中包含一个包含数字列表的列。
我想计算所有这些列表中每个数字的出现。 所以我做了一个flatMap,以获取所有整数的集合。 我想对其进行分组,所以每个数字只有一次,然后添加出现的次数(在第二列或其他内容中)。 到目前为止,我的代码:
val counts = dataset.flatMap(_.intLists).groupBy(i => identity(i)).count
但它总是说“ i”缺少参数类型。 我想我需要说这是一个Int,但是我该怎么做? 还是我错过了完全不同的东西?
在类路径中使用Spark 2.0.2依赖项测试您的代码,我看到groupBy
方法期望使用String
或Column
。
您可能需要使用带有函数的groupByKey
方法来提取分组键(在您的示例中为identity
)。
val counts = dataset.flatMap(_.intLists).groupByKey(identity).count
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.