python双列表理解到scala等效

Question

试图将一些pySpark转换为与scala等效的文件，但是对于双列表理解，我的语法正确。 该代码获取键值列表，并以元组形式返回针对同一键发生的值列表。 含义（2，（'user1'，'user2'，'user3'））将返回（（'user1'，'user2'），（'user1'，'user3'），（'user2'，'user3'））。

#source rdd
[(2, ['user1', 'user3']), (1, ['user1', 'user2', 'user1']), (3, ['user2', 'user4', 'user4', 'user3'])]

#current list comprehension in pySpark
rdd2 = rdd.flatMap(lambda kv: [(x, y) for x in kv[1] for y in kv[1] if x < y])

//scala attempt to make equivelent is currently throwing errors for syntax issues
val rdd2 = rdd.flatMap((x,y) => for (x <- _(1)) yield x for(y <- _(1)) yield y if x < y)

Answer 1

Scala全面支持多个迭代器。

尝试这个

val rdd2 = rdd.flatMap {
  case (_, v) =>  for {
    x <- v
    y <- v if x < y 
  } yield (x,y)
}

笔记

下划线将不会像您一样工作（两次）； 使用Scala的模式匹配解开元组的任何一种方法都更清晰（并且更接近Python *）。 由于您不使用第一个元组项，因此可以在其中使用undescore来“将其丢弃”。

* FWIW，您可以将Python稍微整洁一些：

lambda (_,v): [(x, y) for x in v for y in v if x < y]

Answer 2

虽然Nick B提供的答案可以直接翻译您的代码，但在此处使用combinations更有意义：

rdd.values.flatMap(_.toSeq.distinct.sorted.combinations(2))

python双列表理解到scala等效

问题描述

2 个解决方案

解决方案1
3 已采纳 2016-02-11 22:12:14

尝试这个

笔记

解决方案2
2 2016-02-11 22:16:17

python双列表理解到scala等效

问题描述

2 个解决方案

解决方案1 3 已采纳 2016-02-11 22:12:14

尝试这个

笔记

解决方案2 2 2016-02-11 22:16:17

解决方案1
3 已采纳 2016-02-11 22:12:14

解决方案2
2 2016-02-11 22:16:17