用於提取每組最近 2 行的數據框

Question

一個簡單的數據框，我想選擇所有列的最新 2 行（按“年份”排序）。

import pandas as pd

data = {'People' : ["John","John","John","Kate","Kate","David","David","David","David"],
'Year': ["2018","2019","2006","2017","2012","2006","2019","2018","2017"],
'Sales' : [120,100,60,150,135,140,90,110,160]}

df = pd.DataFrame(data)

我在下面嘗試過，但它沒有產生想要的東西：

df = df.groupby('People')
df_1 = pd.concat([df.head(2)]).drop_duplicates().sort_values('Year').reset_index(drop=True)

什么是正確的寫法？ 謝謝你。

Answer 1

IIUC，使用pandas.DataFrame.nlargest ：

df['Year'] = df['Year'].astype(int)
df.groupby('People', as_index=False).apply(lambda x: x.nlargest(2, "Year"))

輸出：

    People  Year  Sales
0 6  David  2019     90
  7  David  2018    110
1 1   John  2019    100
  0   John  2018    120
2 3   Kate  2017    150
  4   Kate  2012    135

用於提取每組最近 2 行的數據框

問題描述

1 個解決方案

解決方案1
2 已采納 2020-01-15 07:51:13

用於提取每組最近 2 行的數據框

問題描述

1 個解決方案

解決方案1 2 已采納 2020-01-15 07:51:13

解決方案1
2 已采納 2020-01-15 07:51:13