PySpark - 添加一個按用戶排名的新列

Question

我有這個PySpark DataFrame

df = pd.DataFrame(np.array([
    ["aa@gmail.com",2,3], ["aa@gmail.com",5,5],
    ["bb@gmail.com",8,2], ["cc@gmail.com",9,3]
]), columns=['user','movie','rating'])

sparkdf = sqlContext.createDataFrame(df, samplingRatio=0.1)

         user movie rating
aa@gmail.com     2      3
aa@gmail.com     5      5
bb@gmail.com     8      2
cc@gmail.com     9      3

我需要添加一個按用戶排名的新列

我想要這個輸出

         user  movie rating  Rank
aa@gmail.com     2      3     1
aa@gmail.com     5      5     1
bb@gmail.com     8      2     2
cc@gmail.com     9      3     3

我怎樣才能做到這一點？

Answer 1

這里真的沒有優雅的解決方案。 如果你有，你可以嘗試這樣的事情：

lookup = (sparkdf.select("user")
    .distinct()
    .orderBy("user")
    .rdd
    .zipWithIndex()
    .map(lambda x: x[0] + (x[1], ))
    .toDF(["user", "rank"]))

sparkdf.join(lookup, ["user"]).withColumn("rank", col("rank") + 1)

窗口函數替代更簡潔：

from pyspark.sql.functions import dense_rank

sparkdf.withColumn("rank", dense_rank().over(w))

但效率極低， 在實踐中應該避免 。

PySpark - 添加一個按用戶排名的新列

問題描述

1 個解決方案

解決方案1
11 已采納 2016-04-13 18:25:18

PySpark - 添加一個按用戶排名的新列

問題描述

1 個解決方案

解決方案1 11 已采納 2016-04-13 18:25:18

解決方案1
11 已采納 2016-04-13 18:25:18