比較兩個 PySpark 數據幀並修改其中一個？

Question

我找不到 Sparkified 方式來做到這一點，希望你們中的一些數據專家能夠提供幫助：

我有兩個數據框：

1

item_list
[1,2,3,4,5,6,7,0,0]
[1,2,3,4,5,6,7,8,0]

2

item_list
[3,0,0,4,2,6,1,0,0]

我想像這樣退回一個新的 dataframe。 對於 DF 2 中的每個非零值，如果 DF 1 在該索引處非零，則將其替換為 1，並返回新的 dataframe。

結果：

item_list
[3,1,1,4,2,6,1,1,0]

這在標准 python 中相當容易做到。 我怎樣才能在 Spark 中做到這一點？

Answer 1

即使您使用的是 spark，但這並不一定意味着您必須僅使用 spark 方法和流程來解決問題。

我會建議分析一個問題，並通過最好的平易近人的解決方案來尋找。 由於您使用的是 PySpark 並且您有兩個列表，因此您實際上可以使用 python （如您所提到的）輕松地通過 spark 實現此目的，這可能是在當前情況下更理想的方法。

當您認為 pyhton 或 scala 無法實現或可能實現的語言時，Spark 就會發揮作用，但 Spark 可以提供一些幫助庫，讓您的生活變得輕松。