Pyspark DataFrame 計算另一列中某列值的出現次數

Question

我得到了一個數據框，其中包括：

+--------------------+--------------------+-------------+
|                 src|                 dst|linkage_count|
+--------------------+--------------------+-------------+
|             abc.com|        _spf.a22.biz|            0|
|             abc.com|     _spf.google.com|            0|
|     _spf.google.com|        _spf.mail.ru|            0|
+--------------------+--------------------+-------------+

現在我想遍歷每一行並獲取“dst”列的值，並在“src”列中找到該“dst”值的出現次數並將其添加到“linkage_count”列中。 所以在這種情況下，結果應該是：

+--------------------+--------------------+-------------+
|                 src|                 dst|linkage_count|
+--------------------+--------------------+-------------+
|             abc.com|        _spf.a22.biz|            0|
|             abc.com|     _spf.google.com|            1|
|     _spf.google.com|        _spf.mail.ru|            0|
+--------------------+--------------------+-------------+

Answer 1

使用自連接的一種方法：

df.alias("l").join(df.alias("r"), col("l.dst") == col("r.src"), "left")\
             .groupBy("l.src", "l.dst")\
             .agg((count("r.src") + first("l.linkage_count")).alias("linkage_count"))\
             .show()

我們在dst == src上使用左連接並計算添加到linkage_count列的匹配數。

給出：

+---------------+---------------+-------------+
|            src|            dst|linkage_count|
+---------------+---------------+-------------+
|        abc.com|   _spf.a22.biz|            0|
|_spf.google.com|   _spf.mail.ru|            0|
|        abc.com|_spf.google.com|            1|
+---------------+---------------+-------------+

Pyspark DataFrame 計算另一列中某列值的出現次數

問題描述

1 個解決方案

解決方案1
0 2020-02-11 21:08:36

Pyspark DataFrame 計算另一列中某列值的出現次數

問題描述

1 個解決方案

解決方案1 0 2020-02-11 21:08:36

解決方案1
0 2020-02-11 21:08:36