如何使用Spark / Python枚舉組中的行？

Question

我想像Pandas一樣枚舉分組值：

Spark / Python有什么方法？

Answer 1

使用row_number窗口函數：

from pyspark.sql.functions import row_number
from pyspark.sql import Window

w = Window.partitionBy("some_column").orderBy("some_other_column")
df.withColumn("rn", row_number().over(w))

Answer 2

您可以通過執行以下操作在rdd級別實現此目的：

rdd = sc.parallelize(['a', 'b', 'c'])
df = spark.createDataFrame(rdd.zipWithIndex())
df.show()

結果是： +---+---+ | _1| _2| +---+---+ | a| 0| | b| 1| | c| 2| +---+---+ +---+---+ | _1| _2| +---+---+ | a| 0| | b| 1| | c| 2| +---+---+ +---+---+ | _1| _2| +---+---+ | a| 0| | b| 1| | c| 2| +---+---+如果你只需要唯一的ID，而不是真正的連續索引，你也可以使用更高效的zipWithUniqueId() ，因為在每個分區本地完成。

如何使用Spark / Python枚舉組中的行？

問題描述

2 個解決方案

解決方案1
4 已采納 2016-03-09 14:04:13

解決方案2
1 2017-11-11 10:20:58

如何使用Spark / Python枚舉組中的行？

問題描述

2 個解決方案

解決方案1 4 已采納 2016-03-09 14:04:13

解決方案2 1 2017-11-11 10:20:58

解決方案1
4 已采納 2016-03-09 14:04:13

解決方案2
1 2017-11-11 10:20:58