如何通過 Scala 中列的哈希對數據集進行排序？

Question

我有一個org.apache.spark.sql.Dataset並嘗試按列的散列對其進行排序。 試過了

ds.sort($"source".hashCode)

但這顯然是錯誤的。

Answer 1

您可以使用函數package的內置函數hash

import org.apache.spark.sql.functions.hash

ds.sort(hash($"source"))

快速示例

輸入

+--------+-----+
| source |other|
+--------+-----+
|       a|    3|
|       c|    2|
|       b|    2|
+--------+-----+

輸出：

+------+-----+
|source|other|
+------+-----+
|     c|    2|
|     a|    3|
|     b|    2|
+------+-----+

列中的散列結果僅用於演示目的：

+------+-----+-----------+
|source|other|       hash|
+------+-----+-----------+
|     c|    2|-2124386278|
|     a|    3| 1485273170|
|     b|    2| 1905031361|
+------+-----+-----------+

如何通過 Scala 中列的哈希對數據集進行排序？

問題描述

1 個解決方案

解決方案1
0 2020-01-30 22:09:28

如何通過 Scala 中列的哈希對數據集進行排序？

問題描述

1 個解決方案

解決方案1 0 2020-01-30 22:09:28

解決方案1
0 2020-01-30 22:09:28