從DataFrame中選擇屬於同一系列的行的最后一次觀察

Question

假設我在Python中有一個類似於這個的DataFrame：

df = pd.DataFrame.from_dict({
    '0': ['monday', 1],
    '1': ['monday', 5],
    '2': ['monday', 2],
    '3': ['tuesday', 1],
    '4': ['tuesday', 3]
}, orient='index', columns=['day', 'value'])

並且我想提取每個日期的最后一個觀察/元素，例如由值列定義，所以： df = df.sort_values(['day','value'])

如何在大型DataFrame上高效地完成這項工作？ 一個極其緩慢的預期效果的例子是：

indices = []
for day in df['day'].unique():
    indices.append(list(df[df['day'] == day].index)[-1])

df.loc[np.array(indices)]

產量：

    day value
1   monday  5
4   tuesday 3

我知道這個答案：從縱向數據中選擇最后一個觀察，但它在R中。

Answer 1

添加drop_duplicates並指定列day參數last ，如果必要，默認排序天數創建ordered categorical ：

df = pd.DataFrame.from_dict({
    '0': ['monday', 1, 4],
    '1': ['monday', 5, 1],
    '2': ['monday', 2, 0],
    '3': ['tuesday', 1, 2],
    '4': ['tuesday', 3, 3]
}, orient='index', columns=['day', 'value',  'value1'])
print (df)
       day  value  value1
0   monday      1       4
1   monday      5       1
2   monday      2       0
3  tuesday      1       2
4  tuesday      3       3

categories=['monday','tuesday','wednesday','thursday','friday','saturday', 'sunday']
df['day'] = pd.Categorical(df['day'], categories=categories, ordered=True)
df = df.sort_values(['day','value']).drop_duplicates('day', keep='last')
print (df)
       day  value  value1
1   monday      5       1
4  tuesday      3       3

Answer 2

試試這個，

print df.groupby('day',as_index=False)['value'].max()

輸出：

       day  value
0   monday      5
1  tuesday      3

Answer 3

df[df.groupby(['day'])['value'].transform(max) == df['value']]

輸出：

     day    value
1   Monday   5
4   Tuesday  3

從DataFrame中選擇屬於同一系列的行的最后一次觀察

問題描述

3 個解決方案

解決方案1
4 已采納 2018-11-28 10:40:39

解決方案2
1 2018-11-28 10:42:34

解決方案3
1 2018-11-28 10:53:17

從DataFrame中選擇屬於同一系列的行的最后一次觀察

問題描述

3 個解決方案

解決方案1 4 已采納 2018-11-28 10:40:39

解決方案2 1 2018-11-28 10:42:34

解決方案3 1 2018-11-28 10:53:17

解決方案1
4 已采納 2018-11-28 10:40:39

解決方案2
1 2018-11-28 10:42:34

解決方案3
1 2018-11-28 10:53:17