如何在DataFrame中獲取唯一的一對值

Question

給定pySpark DataFrame，我如何獲得列col1和col2所有可能的唯一組合。

我可以為單個列獲取唯一值，但是不能獲得col1和col2唯一對：

df.select('col1').distinct().rdd.map(lambda r: r[0]).collect()

我試過了，但是似乎不起作用：

df.select(['col1','col2']).distinct().rdd.map(lambda r: r[0]).collect()

Answer 1

我嘗試過的那個

>>> df = spark.createDataFrame([(1,2),(1,3),(1,2),(2,3)],['col1','col2'])
>>> df.show()
+----+----+
|col1|col2|
+----+----+
|   1|   2|
|   1|   3|
|   1|   2|
|   2|   3|
+----+----+

>>> df.select('col1','col2').distinct().rdd.map(lambda r:r[0]).collect() ## your mapping
[1, 2, 1]
>>> df.select('col1','col2').distinct().show()
+----+----+
|col1|col2|
+----+----+
|   1|   3|
|   2|   3|
|   1|   2|
+----+----+
>>> df.select('col1','col2').distinct().rdd.map(lambda r:(r[0],r[1])).collect() 
[(1, 3), (2, 3), (1, 2)]

Answer 2

請嘗試以下功能：

    `df[['col1', 'col2']].drop_duplicates()`

如何在DataFrame中獲取唯一的一對值

問題描述

2 個解決方案

解決方案1
2 已采納 2017-10-03 11:35:41

解決方案2
1 2017-10-03 11:37:57

如何在DataFrame中獲取唯一的一對值

問題描述

2 個解決方案

解決方案1 2 已采納 2017-10-03 11:35:41

解決方案2 1 2017-10-03 11:37:57

解決方案1
2 已采納 2017-10-03 11:35:41

解決方案2
1 2017-10-03 11:37:57