簡體   English   中英

spark dataframe如何使用java獲取最新的n行

[英]spark dataframe how to get the latest n rows using java

我是Spark的新手。 現在,我正在嘗試將兩個DataFrame結合在一起。 我想將數據框保持在5000行中。 由於我的第一個數據幀已經獲得5000行,因此我需要獲得最新的4000行,因為我的第二個數據幀具有1000行。 有人可以幫助我如何獲取第一個數據幀中最新的4000行的數據幀嗎? 提前致謝。

我不確定您真正希望通過這種方式實現什么,但是如果您使用的是Spark 1.5,則可以使用monotonicallyIncreasingId做類似的事情:

val df4000 = df.sort(monotonicallyIncreasingId().desc).limit(4000)

該數據將按照數據幀中每一行的ID降序排列,然后將結果限制為前4000個。

否則,您可以使用已知增加的任何列進行相同的操作。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM