[英]Joining Multiple dataframes using Pyspark
我有以下數據框
df1 - df1_id, name, age
df2 - df2_id, df1_id, subject, marks
df3 - df3_id, df2_id, city, country
結果
dfResult = df1_id, name, age, df2_id, subject, marks, df3_id, city, country
這在 Pyspark 中可能嗎? 我知道我可以使用 join 將 df1 和 df2 連接在一起
left_join = df1.join(df2, df1.df1_id == df2.df2_id,how='left')
但我不確定我是否可以加入所有三個以獲得預期的輸出。
您應該能夠將join
:
df1.join(df2, ['df1_id'], how='left').join(df3, ['df2_id'], how='left')
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.