[英]Pyspark: Merging lists which are in dataframe column
我有一個數據框,如下所示。 如果它們具有至少一個相同的值,我想合並列表。 可以采用任何組件號。 例如, [1,2]和[1,4,9]具有1作為共同值。 因此,兩者都將合並為[1,2,4,9] 。 現在[1,2]的組件號為80 , [1,4,9]的組件號為30 。 對於[1,2,4,9] ,可以將其中任何一個作為組件號。 在下面給出的示例中,我考慮了30 。
是否有可能使用數據幀或rdd操作的解決方案,而避免了盡可能多的迭代? 謝謝。
您正在嘗試解決連接的組件問題。 我來看看GraphFrames docs 。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.