PySpark：將DataFrame列的值與另一個DataFrame列匹配

Question

在Pandas DataFrame中，我可以使用DataFrame.isin()函數將列值與另一列匹配。

例如：假設我們有一個DataFrame：

df_A = pd.DataFrame({'col1': ['A', 'B', 'C', 'B', 'C', 'D'], 
                     'col2': [1, 2, 3, 4, 5, 6]})
df_A

    col1  col2
0    A     1
1    B     2
2    C     3
3    B     4
4    C     5
5    D     6

和另一個DataFrame：

df_B = pd.DataFrame({'col1': ['C', 'E', 'D', 'C', 'F', 'G', 'H'], 
                     'col2': [10, 20, 30, 40, 50, 60, 70]})
df_B

    col1  col2
0    C    10
1    E    20
2    D    30
3    C    40
4    F    50
5    G    60
6    H    70

我可以使用.isin()函數將df_B的列值與df_A的列值進行df_A

例如：

df_B[df_B['col1'].isin(df_A['col1'])]

收益率：

    col1  col2
0    C    10
2    D    30
3    C    40

PySpark DataFrame中的等效操作是什么？

df_A = pd.DataFrame({'col1': ['A', 'B', 'C', 'B', 'C', 'D'], 
                     'col2': [1, 2, 3, 4, 5, 6]})
df_A = sqlContext.createDataFrame(df_A)

df_B = pd.DataFrame({'col1': ['C', 'E', 'D', 'C', 'F', 'G', 'H'], 
                     'col2': [10, 20, 30, 40, 50, 60, 70]})
df_B = sqlContext.createDataFrame(df_B)


df_B[df_B['col1'].isin(df_A['col1'])]

上面的.isin()代碼給出了一條錯誤消息：

u'resolved attribute(s) col1#9007 missing from 
col1#9012,col2#9013L in operator !Filter col1#9012 IN 
(col1#9007);;\n!Filter col1#9012 IN (col1#9007)\n+- 
LogicalRDD [col1#9012, col2#9013L]\n'

Answer 1

這種操作在spark中稱為左半連接：

df_B.join(df_A, ['col1'], 'leftsemi')

Answer 2

過濾器是如何選擇行的，isin運算符是相同的

df.filter(col('col1').isin(highf['col1']))

PySpark：將DataFrame列的值與另一個DataFrame列匹配

問題描述

2 個解決方案

解決方案1
10 已采納 2017-03-02 05:49:26

解決方案2
-1 2019-08-19 09:37:39

PySpark：將DataFrame列的值與另一個DataFrame列匹配

問題描述

2 個解決方案

解決方案1 10 已采納 2017-03-02 05:49:26

解決方案2 -1 2019-08-19 09:37:39

解決方案1
10 已采納 2017-03-02 05:49:26

解決方案2
-1 2019-08-19 09:37:39