Pyspark：獲取兩列之間不同組合的數量

Question

我需要能夠在兩個單獨的列中獲得不同組合的數量。

在這個來自“動物”和“顏色”列的示例中，我想要得到的結果是 3，因為出現了三種不同的列組合。 基本上，Animal 或 Color 在不同的行中可以相同，但如果兩行具有相同的 Animal AND Color，則應從該計數中省略。

Animal | Color
Dog    | Brown
Dog    | White
Cat    | Black
Dog    | White

我知道您可以將數據添加到一個集合中，這將消除重復項，但我似乎無法讓它與多個變量一起使用。

這是我試圖解決這個問題的示例代碼。

d = d.rdd
d = d.map(lambda row: (row.day.year, row.number))
print(d.take(2000))
d_maxNum = d.reduceByKey(lambda max_num, this_num: this_num if this_num > max_num else max_num)
print(d_maxNum.collect())

Answer 1

Pyspark 有您可以使用的dropDuplicates方法參考。

df = sc.parallelize([Row(Animal='Dog', Color='White'), Row(Animal='Dog', Color='Black'), Row(Animal='Dog', Color='White'), Row(Animal='Cat', Color='White')]).toDF()

df.dropDuplicates(['Animal', 'Color']).count()

這將使輸出為 3。

Answer 2

您可以使用distinct功能。

##Perform distinct on entire dataframe.
df.distinct().show()

##Perform distinct on certain columns of dataframe
df.select('Animal','Color').distinct().show()

Pyspark：獲取兩列之間不同組合的數量

問題描述

2 個解決方案

解決方案1
1 2019-12-02 06:46:43

解決方案2
0 2019-12-02 10:46:31

Pyspark：獲取兩列之間不同組合的數量

問題描述

2 個解決方案

解決方案1 1 2019-12-02 06:46:43

解決方案2 0 2019-12-02 10:46:31

解決方案1
1 2019-12-02 06:46:43

解決方案2
0 2019-12-02 10:46:31