[英]Compare two PySpark dataframes and modify one of them?
我找不到 Sparkified 方式來做到這一點,希望你們中的一些數據專家能夠提供幫助:
我有兩個數據框:
1
item_list
[1,2,3,4,5,6,7,0,0]
[1,2,3,4,5,6,7,8,0]
2
item_list
[3,0,0,4,2,6,1,0,0]
我想像這樣退回一個新的 dataframe。 對於 DF 2 中的每個非零值,如果 DF 1 在該索引處非零,則將其替換為 1,並返回新的 dataframe。
結果:
item_list
[3,1,1,4,2,6,1,1,0]
這在標准 python 中相當容易做到。 我怎樣才能在 Spark 中做到這一點?
即使您使用的是 spark,但這並不一定意味着您必須僅使用 spark 方法和流程來解決問題。
我會建議分析一個問題,並通過最好的平易近人的解決方案來尋找。 由於您使用的是 PySpark 並且您有兩個列表,因此您實際上可以使用 python (如您所提到的)輕松地通過 spark 實現此目的,這可能是在當前情況下更理想的方法。
當您認為 pyhton 或 scala 無法實現或可能實現的語言時,Spark 就會發揮作用,但 Spark 可以提供一些幫助庫,讓您的生活變得輕松。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.