簡體   English   中英

Pyspark:合並數據框列中的列表

[英]Pyspark: Merging lists which are in dataframe column

我有一個數據框,如下所示。 如果它們具有至少一個相同的值,我想合並列表。 可以采用任何組件號。 例如, [1,2][1,4,9]具有1作為共同值。 因此,兩者都將合並為[1,2,4,9] 現在[1,2]的組件號為80[1,4,9]的組件號為30 對於[1,2,4,9] ,可以將其中任何一個作為組件號。 在下面給出的示例中,我考慮了30

是否有可能使用數據幀或rdd操作的解決方案,而避免了盡可能多的迭代? 謝謝。

您正在嘗試解決連接的組件問題。 我來看看GraphFrames docs

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM