簡體   English   中英

使用 Pyspark 連接多個數據幀

[英]Joining Multiple dataframes using Pyspark

我有以下數據框

df1 - df1_id, name, age
df2 - df2_id, df1_id, subject, marks
df3 - df3_id, df2_id, city, country

結果

dfResult = df1_id, name, age, df2_id, subject, marks, df3_id, city, country

這在 Pyspark 中可能嗎? 我知道我可以使用 join 將 df1 和 df2 連接在一起

left_join = df1.join(df2, df1.df1_id == df2.df2_id,how='left')

但我不確定我是否可以加入所有三個以獲得預期的輸出。

您應該能夠將join

df1.join(df2, ['df1_id'], how='left').join(df3, ['df2_id'], how='left')

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM