pyspark：獲取列表值的不同元素

Question

我有一個這種形式的 rdd，

rdd = sc.parallelize([('A', [1, 2, 4, 1, 2, 5]), ('B', [2, 3, 2, 1, 5, 10]), ('C', [3, 2, 5, 10, 5, 2])])

但我想像下面那樣轉換 rdd，

newrdd = [('A', [1, 2, 4, 5]), ('B', [2, 3, 1, 5, 10], ('C', [3, 2, 5, 10])]

意思是，我必須獲得不同的價值觀元素。 ReduceByKey()在這里沒有幫助。

我怎樣才能做到這一點？

Answer 1

從 Spark 2.4 開始，您可以使用 PySpark SQL 函數array_distinct ：

df = rdd.toDF(("category", "values"))
df.withColumn("foo", array_distinct(col("values"))).show()
+--------+-------------------+----------------+
|category|             values|             foo|
+--------+-------------------+----------------+
|       A| [1, 2, 4, 1, 2, 5]|    [1, 2, 4, 5]|
|       B|[2, 3, 2, 1, 5, 10]|[2, 3, 1, 5, 10]|
|       C|[3, 2, 5, 10, 5, 2]|   [3, 2, 5, 10]|
+--------+-------------------+----------------+

它的優點是不將 JVM 對象轉換為 Python 對象，因此比任何 Python UDF 都更有效。 但是，它是一個 DataFrame 函數，因此您必須將 RDD 轉換為 DataFrame。 大多數情況下也建議這樣做。

Answer 2

這是在 Python 中獲取結果的直接方法。 請注意，RDD 是不可變的。

設置 Spark 會話/上下文

from pyspark.sql import SparkSession
from pyspark import SparkContext

spark = SparkSession.builder \
            .master("local") \
            .appName("SO Solution") \
            .getOrCreate()

sc = spark.sparkContext

解決方案代碼

rdd = sc.parallelize([('A', [1, 2, 4, 1, 2, 5]), ('B', [2, 3, 2, 1, 5, 10]), ('C', [3, 2, 5, 10, 5, 2])])

newrdd = rdd.map(lambda x : (x[0], list(set(x[1]))))

newrdd.collect()

輸出

[('A', [1, 2, 4, 5]), ('B', [1, 2, 3, 5, 10]), ('C', [10, 2, 3, 5])]

Answer 3

您可以將數組轉換為 set 以獲得不同的值。 這是如何 - 我已經稍微改變了語法以使用 scala。

    val spark : SparkSession = SparkSession.builder
      .appName("Test")
      .master("local[2]")
      .getOrCreate()
    import spark.implicits._
    val df = spark.createDataset(List(("A", Array(1, 2, 4, 1, 2, 5)), ("B", Array(2, 3, 2, 1, 5, 10)), ("C", Array(3, 2, 5, 10, 5, 2))))
    df.show()

    val dfDistinct = df.map(r=> (r._1, r._2.toSet) )
    dfDistinct.show()

Answer 4

old_rdd = [('A', [1, 2, 4, 1, 2, 5]), ('B', [2, 3, 2, 1, 5, 10]), ('C', [3, 2, 5, 10, 5, 2])]
new_rdd = [(letter, set(numbers)) for letter, numbers in old_rdd]

像這樣？

或者list(set(numbers))如果你真的需要它們成為一個列表？

pyspark：獲取列表值的不同元素

問題描述

4 個解決方案

解決方案1
2 2019-12-27 01:13:00

解決方案2
1 2019-12-27 00:59:37

解決方案3
0 2019-12-27 00:10:37

解決方案4
-1 2019-12-27 00:08:48

pyspark：獲取列表值的不同元素

問題描述

4 個解決方案

解決方案1 2 2019-12-27 01:13:00

解決方案2 1 2019-12-27 00:59:37

解決方案3 0 2019-12-27 00:10:37

解決方案4 -1 2019-12-27 00:08:48

解決方案1
2 2019-12-27 01:13:00

解決方案2
1 2019-12-27 00:59:37

解決方案3
0 2019-12-27 00:10:37

解決方案4
-1 2019-12-27 00:08:48