簡體   English   中英

比較兩個 PySpark 數據幀並修改其中一個?

[英]Compare two PySpark dataframes and modify one of them?

我找不到 Sparkified 方式來做到這一點,希望你們中的一些數據專家能夠提供幫助:

我有兩個數據框:

1

item_list
[1,2,3,4,5,6,7,0,0]
[1,2,3,4,5,6,7,8,0]

2

item_list
[3,0,0,4,2,6,1,0,0]

我想像這樣退回一個新的 dataframe。 對於 DF 2 中的每個非零值,如果 DF 1 在該索引處非零,則將其替換為 1,並返回新的 dataframe。

結果:

item_list
[3,1,1,4,2,6,1,1,0]

這在標准 python 中相當容易做到。 我怎樣才能在 Spark 中做到這一點?

即使您使用的是 spark,但這並不一定意味着您必須僅使用 spark 方法和流程來解決問題。

我會建議分析一個問題,並通過最好的平易近人的解決方案來尋找。 由於您使用的是 PySpark 並且您有兩個列表,因此您實際上可以使用 python (如您所提到的)輕松地通過 spark 實現此目的,這可能是在當前情況下更理想的方法。

當您認為 pyhton 或 scala 無法實現或可能實現的語言時,Spark 就會發揮作用,但 Spark 可以提供一些幫助庫,讓您的生活變得輕松。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM