![](/img/trans.png)
[英]How to split single row into multiple rows in Spark DataFrame using Java
[英]spark dataframe how to get the latest n rows using java
我是Spark的新手。 現在,我正在嘗試將兩個DataFrame結合在一起。 我想將數據框保持在5000行中。 由於我的第一個數據幀已經獲得5000行,因此我需要獲得最新的4000行,因為我的第二個數據幀具有1000行。 有人可以幫助我如何獲取第一個數據幀中最新的4000行的數據幀嗎? 提前致謝。
我不確定您真正希望通過這種方式實現什么,但是如果您使用的是Spark 1.5,則可以使用monotonicallyIncreasingId做類似的事情:
val df4000 = df.sort(monotonicallyIncreasingId().desc).limit(4000)
該數據將按照數據幀中每一行的ID降序排列,然后將結果限制為前4000個。
否則,您可以使用已知增加的任何列進行相同的操作。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.