在 PySpark 數據框中添加不同長度的列作為新列

Question

我有這個數據框，我將稱之為 DF1：

我有第二個數據框 DF2（只有 3 行）：

我想在 DF1 中創建一個新列，我將調用 total_population_by_year1 其中：

total_population_by_year1 = (DF2 的內容 if year DF1 == Year DF2) 換句話說，新的列行將填充每年的總人口。

到目前為止我做了什么：

df_tg = DF2.join(DF1[DF1.total_population_by_year == 
DF1.Year], ["Year", "Level_One_ICD", 
"total_patient_Level1_by_year"])

這將返回一個錯誤。

使這項工作發揮作用的一些想法？

Answer 1

你可以試試這個：

DF2 = DF2.toDF(['Year_2','total_population_by_year'])
DF1 = DF1.join(DF2, DF1.Year == DF2.Year_2).drop('Year_2')