如果行匹配，PySpark設置列值等於另一個數據框值

Question

嗨，我想檢查spark數據框列值，並基於檢查行名是否與另一個數據框行匹配來設置它。

例：

df1:
average name
3.5      n1
1.2      n2
4.2      n3

df2:
name    
n1     
n1        
n1    
n2
n3
n1
n2
n3
n3

df_i_want:
average name
3.5      n1
3.5      n1
3.5      n1
1.2      n2
4.2      n3
3.5      n1
1.2      n2
4.2      n3
4.2      n3

Answer 1

您需要加入才能執行此任務：

## join both data on name
df3 = df2.join(df1, on='name',how='left')

# change column sequence
df3 = df3.select('average','name')

# order by name values
df3 = df3.orderBy('name', ascending=True)

Answer 2

您需要做的就是Join

您可以達到如下結果。

將數據框df2與name上的df1 ，然后選擇所需的列順序

df3 = df2.join(df1, on = 'name').select('average', 'name')

上面的代碼段應為您提供理想的結果

如果行匹配，PySpark設置列值等於另一個數據框值

問題描述

2 個解決方案

解決方案1
2 2018-07-25 23:52:34

解決方案2
2 已采納 2018-07-25 23:59:56

如果行匹配，PySpark設置列值等於另一個數據框值

問題描述

2 個解決方案

解決方案1 2 2018-07-25 23:52:34

解決方案2 2 已采納 2018-07-25 23:59:56

解決方案1
2 2018-07-25 23:52:34

解決方案2
2 已采納 2018-07-25 23:59:56