[英]Add column with different length as new column in PySpark dataframe
我有這個數據框,我將稱之為 DF1:
我有第二個數據框 DF2(只有 3 行):
我想在 DF1 中創建一個新列,我將調用 total_population_by_year1 其中:
total_population_by_year1 = (DF2 的內容 if year DF1 == Year DF2) 換句話說,新的列行將填充每年的總人口。
到目前為止我做了什么:
df_tg = DF2.join(DF1[DF1.total_population_by_year ==
DF1.Year], ["Year", "Level_One_ICD",
"total_patient_Level1_by_year"])
這將返回一個錯誤。
使這項工作發揮作用的一些想法?
你可以試試這個:
DF2 = DF2.toDF(['Year_2','total_population_by_year'])
DF1 = DF1.join(DF2, DF1.Year == DF2.Year_2).drop('Year_2')
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.