簡體 English 中英

如何編寫一個通用的 function 來加入兩個 PySpark 數據幀？

[英]How to write a universal function to join two PySpark dataframes?

原文 2022-07-30 08:10:33 4 1 python/ function/ join/ pyspark/ inner-join

如何編寫一個通用的 function 來加入兩個 PySpark 數據幀？

我想寫一個 function 對兩個數據幀執行內連接，並消除連接后重復的公共列。 據我所知，沒有辦法做到這一點，因為我們總是需要在加入時手動定義公共列。 或者有什么辦法嗎？

1 個解決方案

如果您需要在連接條件中包含所有公共列，則可以將它們提取到列表中並傳遞給join() 。 加入后，只需對這些相同的列調用drop即可將它們從結果中刪除。

common_cols = list(set(df.columns).intersection(set(df2.columns)))

df3 = df.join(df2, common_cols, how='inner').drop(*common_cols)

Pyspark 連接兩個數據框

[英]Pyspark join two dataframes

如何通過 Pyspark 中的不同字段連接兩個數據幀

[英]How to join two dataframes by different fields in Pyspark

如何連接兩個 Pyspark 數據幀的不同元素

[英]How to join between different elements of two Pyspark dataframes

Pyspark - 連接兩個數據幀並連接一個數組列

[英]Pyspark - join two dataframes and concat an array column

PySpark | 加入特定列中的兩個數據框

[英]PySpark | Join two dataframes in specific column

使用最接近的時間戳連接兩個數據幀 pyspark

[英]Join two dataframes using the closest timestamp pyspark

如何比較兩個pyspark數據幀？

[英]how to compare two pyspark dataframes?

pyspark 內部連接的替代方案，用於比較 pyspark 中的兩個數據幀

[英]alternative of pyspark inner join to compare two dataframes in pyspark

如何在 pyspark sql python 中加入 2 個 DataFrame

[英]How to join 2 DataFrames in pyspark sql python

如何使用數據幀與 pyspark 執行三重連接？

[英]How to perform a triple join with pyspark using dataframes?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 Pyspark 連接兩個數據框如何通過 Pyspark 中的不同字段連接兩個數據幀如何連接兩個 Pyspark 數據幀的不同元素 Pyspark - 連接兩個數據幀並連接一個數組列 PySpark | 加入特定列中的兩個數據框使用最接近的時間戳連接兩個數據幀 pyspark 如何比較兩個pyspark數據幀？ pyspark 內部連接的替代方案，用於比較 pyspark 中的兩個數據幀如何在 pyspark sql python 中加入 2 個 DataFrame 如何使用數據幀與 pyspark 執行三重連接？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM