[英]Merge two different dataframes in pyspark
我有兩個不同的數據框,一個是日期組合,一個是城市對:
df_date_combinations:
+-------------------+-------------------+
| fs_date| ss_date|
+-------------------+-------------------+
|2022-06-01T00:00:00|2022-06-02T00:00:00|
|2022-06-01T00:00:00|2022-06-03T00:00:00|
|2022-06-01T00:00:00|2022-06-04T00:00:00|
+-------------------+-------------------+
城市對:
+---------+--------------+---------+--------------+
|fs_origin|fs_destination|ss_origin|ss_destination|
+---------+--------------+---------+--------------+
| TLV| NYC| NYC| TLV|
| TLV| ROM| ROM| TLV|
| TLV| BER| BER| TLV|
+---------+--------------+---------+--------------+
我想將它們組合起來,所以我將擁有以下數據框:
+----------+----------+---------+--------------+---------+--------------+
| fs_date| ss_date|fs_origin|fs_destination|ss_origin|ss_destination|
+----------+----------+---------+--------------+---------+--------------+
|2022-06-01|2022-06-02| TLV| NYC| NYC| TLV|
|2022-06-01|2022-06-03| TLV| NYC| NYC| TLV|
|2022-06-01|2022-06-04| TLV| NYC| NYC| TLV|
|2022-06-01|2022-06-02| TLV| ROM| ROM| TLV|
|2022-06-01|2022-06-03| TLV| ROM| ROM| TLV|
|2022-06-01|2022-06-04| TLV| ROM| ROM| TLV|
|2022-06-01|2022-06-02| TLV| BER| BER| TLV|
|2022-06-01|2022-06-03| TLV| BER| BER| TLV|
|2022-06-01|2022-06-04| TLV| BER| BER| TLV|
+----------+----------+---------+--------------+---------+--------------+
謝謝!
聽起來像一個交叉連接。
df1.crossJoin(df2)
Pandas 實際上有內置的方法來做到這一點,我們使用concat
來連接數據幀。 您可以在此處閱讀如何執行此操作:
與您相關的部分是:
pd.concat([df_date_combinations, city_pairs], axis = 1)
希望這可以幫助!
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.