spark dataframe如何使用java獲取最新的n行

Question

我是Spark的新手。 現在，我正在嘗試將兩個DataFrame結合在一起。 我想將數據框保持在5000行中。 由於我的第一個數據幀已經獲得5000行，因此我需要獲得最新的4000行，因為我的第二個數據幀具有1000行。 有人可以幫助我如何獲取第一個數據幀中最新的4000行的數據幀嗎？ 提前致謝。

Answer 1

我不確定您真正希望通過這種方式實現什么，但是如果您使用的是Spark 1.5，則可以使用monotonicallyIncreasingId做類似的事情：

val df4000 = df.sort(monotonicallyIncreasingId().desc).limit(4000)

該數據將按照數據幀中每一行的ID降序排列，然后將結果限制為前4000個。

否則，您可以使用已知增加的任何列進行相同的操作。

spark dataframe如何使用java獲取最新的n行

問題描述

1 個解決方案

解決方案1
3 已采納 2015-12-01 09:50:34

spark dataframe如何使用java獲取最新的n行

問題描述

1 個解決方案

解決方案1 3 已采納 2015-12-01 09:50:34

解決方案1
3 已采納 2015-12-01 09:50:34