如何在 pyspark 中獲取順序 ID

Question

我有一個 pyspark dataframe 的 id 重復且不連續。 我想添加一列順序ID，即下面的第二列

id | seq
1  |1
3  |2
7  |3
3  |2
3  |2

我發現實現這一目標的唯一方法是

window = Window.orderBy(col('id'))
df1 = df.select('id').distinct().withColumn('seq', F.row_number().over(window))
df.join(df1, on='id')

但這似乎不是最好的方法。 有沒有另一種更快的方法來完成這個？

Answer 1

使用dense_rank window function。

Example:

from pyspark.sql.window import *
from pyspark.sql.functions import *
w=Window.orderBy('id')

df.show()
#+---+
#| id|
#+---+
#|  1|
#|  3|
#|  3|
#|  3|
#|  7|
#+---+
df.withColumn("seq",dense_rank().over(w)).show()
#+---+---+
#| id|seq|
#+---+---+
#|  1|  1|
#|  3|  2|
#|  3|  2|
#|  3|  2|
#|  7|  3|
#+---+---+

如何在 pyspark 中獲取順序 ID

問題描述

1 個解決方案

解決方案1
4 已采納 2020-06-08 18:06:42

如何在 pyspark 中獲取順序 ID

問題描述

1 個解決方案

解決方案1 4 已采納 2020-06-08 18:06:42

解決方案1
4 已采納 2020-06-08 18:06:42