如何根據 PySpark 中的另一個數據框列處理數據框列？

Question

假設我有這兩個數據框

df1 :   | Name|    Surname      | email   
          John      Smith         JohnSmith@gmail.com
          Jake      Smith         JakeSmith@gmail.com 
          Anna      Hendrix       Anna1994@protonmail.com      
          Kale      Kinderstone   Kinder@hotmail.com
         George     Hiddleston    GH@tonmail.com
        Patrick     Huston        Huston1990@yahoomail.com


df2 :   | Name|    Surname      | email   
          John      Smith         JSmith@ymail.com
         Hannah     Montana       HMontana@ymail.com 
          Anna      Hendrix       AHendrix@ymail.com      
          Kale      Kinderstone   KKinderstone@ymail.com
         Ivan       Gaganovitch   IG@ymail.com
        Florence     Jekins       FJekins@ymail.com

我想做的是在不觸及其余數據的情況下替換一些特定的電子郵件。 所以，我想做的最終產品是

df3 :   | Name|    Surname      | email   
          John      Smith         JSmith@ymail.com
          Jake      Smith         JakeSmith@gmail.com 
          Anna      Hendrix       AHendrix@ymail.com      
          Kale      Kinderstone   KKinderstone@ymail.com
         George     Hiddleston    GH@tonmail.com
        Patrick     Huston        Huston1990@yahoomail.com

一開始，我嘗試通過連接名稱並使用列作為鍵來加入它們，但后來我陷入了如何處理列以及如何刪除 df2 數據的問題。

Answer 1

加入數據框，但在它們上使用alias 。 然后，您將能夠在同名的列之間進行選擇。

df3 = (df1.alias('a')
    .join(df2.alias('b'),['Name', 'Surname'], 'left')
    .select(
        'Name',
        'Surname',
        F.coalesce('b.email', 'a.email').alias('email')
    )
)
df3.show()
# +-------+-----------+--------------------+
# |   Name|    Surname|               email|
# +-------+-----------+--------------------+
# |   Anna|    Hendrix|  AHendrix@ymail.com|
# |   Jake|      Smith| JakeSmith@gmail.com|
# |   John|      Smith|    JSmith@ymail.com|
# |Patrick|     Huston|Huston1990@yahoom...|
# | George| Hiddleston|      GH@tonmail.com|
# |   Kale|Kinderstone|KKinderstone@ymai...|
# +-------+-----------+--------------------+

如何根據 PySpark 中的另一個數據框列處理數據框列？

問題描述

1 個解決方案

解決方案1
0 2022-07-12 12:50:32

如何根據 PySpark 中的另一個數據框列處理數據框列？

問題描述

1 個解決方案

解決方案1 0 2022-07-12 12:50:32

解決方案1
0 2022-07-12 12:50:32