PySpark - 如何遍歷數據幀並匹配另一個數據幀中的另一個常見值

Question

這是一個推薦系統，我有一個Dataframe ，其中包含為每個用戶推薦的大約 10 個項目（ recommendation_df ），我還有另一個數據框，其中包含每個用戶recent_df Dataframe 。

我正在嘗試編寫此任務，但我似乎無法理解語法和操作

我正在實現一個命中/未命中率，基本上是針對 recent_df 中的recent_df new_party_id如果任何recommendation_df與merch_store_code中相同party_id的merch_store_code匹配，則count +=1 （命中）

然后使用count/total user count計算命中/未命中率

（然而在recent_df中，每個用戶可能有多個最近的購買，但如果任何購買在同一用戶的recommens_list列表中，則將其視為命中（計數+=1）

推薦_df

+--------------+----------------+-----------+----------+
|party_id_index|merch_store_code|     rating|  party_id|
+--------------+----------------+-----------+----------+
|           148|       900000166|  0.4021678|G18B00332C|
|           148|       168339566| 0.27687865|G18B00332C|
|           148|       168993309| 0.15999989|G18B00332C|
|           148|       168350313|  0.1431974|G18B00332C|
|           148|       168329726| 0.13634883|G18B00332C|
|           148|       168351967|0.120235085|G18B00332C|
|           148|       168993312| 0.11800903|G18B00332C|
|           148|       168337234|0.116267696|G18B00332C|
|           148|       168993256| 0.10836013|G18B00332C|
|           148|       168339482| 0.10341005|G18B00332C|
|           463|       168350313| 0.93455887|K18M926299|
|           463|       900000072|  0.8275664|K18M926299|
|           463|       700012303| 0.70220494|K18M926299|
|           463|       700012180| 0.23209469|K18M926299|
|           463|       900000157|  0.1727839|K18M926299|
|           463|       700013689| 0.13854747|K18M926299|
|           463|       900000166| 0.12866624|K18M926299|
|           463|       168993284|0.107065596|K18M926299|
|           463|       168993269| 0.10272527|K18M926299|
|           463|       168339566| 0.10256036|K18M926299|
+--------------+----------------+-----------+----------+

最近_df

+------------+---------------+----------------+
|new_party_id|recent_purchase|merch_store_code|
+------------+---------------+----------------+
|  A11275842R|     2022-05-21|       168289403|
|  A131584211|     2022-06-01|       168993311|
|  A131584211|     2022-06-01|       168349493|
|  A131584211|     2022-06-01|       168350192|
|  A182P3539K|     2022-03-26|       168341707|
|  A182V2883F|     2022-05-26|       168350824|
|  A183B5482P|     2022-05-10|       168993464|
|  A183C6900K|     2022-05-14|       168338795|
|  A183D56093|     2022-05-20|       700012303|
|  A183J5388G|     2022-03-18|       700013650|
|  A183U8880P|     2022-04-01|       900000072|
|  A183U8880P|     2022-04-01|       168991904|
|  A18409762L|     2022-05-10|       168319352|
|  A18431276J|     2022-05-14|       168163905|
|  A18433684M|     2022-03-21|       168993324|
|  A18433978F|     2022-05-20|       168341876|
|  A184410389|     2022-05-04|       900000166|
|  A184716280|     2022-04-06|       700013653|
|  A18473797O|     2022-05-24|       168330339|
|  A18473797O|     2022-05-24|       168350592|
+------------+---------------+----------------+

這是我當前的編碼邏輯：

count = 0
def hitratio(recommendation_df, recent_df):
 for i in recent_df['new_party_id']:
  for j  in recommendation_df['party_id']:
   if (i = j) & i.merch_store_code == j.merch_store_code:
    count += 1
  return (count/recent_df.count())

Answer 1

假設：我將最近 df 的所有計數行作為計算命中/未命中率的分母，您可以更改公式。

from pyspark.sql import functions as F
matching_cond = ((recent_df["merch_store_code"]==recommender_df["merch_store_code"]) &(recommendation_df["party_id"].isNotNull()))

df_recent_fnl= df_recent.join(recommendation_df,df_recent["new_party_id"]==recommendation_df["party_id"],"left")\
.select(df_recent["*"],recommender_df["merch_store_code"],recommendation_df["party_id"])\
.withColumn("hit",F.when(matching_cond,F.lit(True)).otherwise(F.lit(False)))\
.withColumn("hit/miss",df_recent_fnl.filter(F.col("hit")).count()/df_recent.count())

如果您對此有任何疑問，請告訴我。

如果你喜歡我的解決方案，你可以投票

Answer 2

在 Spark 中，不要在行上循環。 Spark 不是那樣工作的，您需要考慮整個列，而不是逐行場景。

您需要加入兩個表並選擇用戶，但他們需要沒有重復（不同）

from pyspark.sql import functions as F
df_distinct_matches = (
    recent_df
    .join(recommendation_df, F.col('new_party_id') == F.col('party_id'))
    .select('party_id').distinct()
)
hit = df_distinct_matches.count()

PySpark - 如何遍歷數據幀並匹配另一個數據幀中的另一個常見值

問題描述

2 個解決方案

解決方案1
0 2022-07-19 07:32:56

解決方案2
-1 2022-07-14 11:38:47

PySpark - 如何遍歷數據幀並匹配另一個數據幀中的另一個常見值

問題描述

2 個解決方案

解決方案1 0 2022-07-19 07:32:56

解決方案2 -1 2022-07-14 11:38:47

解決方案1
0 2022-07-19 07:32:56

解決方案2
-1 2022-07-14 11:38:47