從Pandas DataFrame中選擇有限值的最新索引的有效方法？

Question

我正在嘗試找到最近的索引，其值不是相對於當前索引的“NaN”。 所以，假設我有一個帶有'NaN'值的DataFrame，如下所示：

       A       B       C
0    2.1     5.3     4.7
1    5.1     4.6     NaN
2    5.0     NaN     NaN
3    7.4     NaN     NaN
4    3.5     NaN     NaN
5    5.2     1.0     NaN
6    5.0     6.9     5.4
7    7.4     NaN     NaN
8    3.5     NaN     5.8

如果我目前在索引4，我有值：

       A       B       C
4    3.5     NaN     NaN

我想知道'B'相對於索引4的最后已知值，它在索引1 ：

       A       B       C
1    5.1   -> 4.6    NaN

我知道我可以使用以下內容獲取所有具有NaN值的索引的列表：

indexes = df.index[df['B'].apply(np.isnan)]

但是在大型數據庫中這似乎效率低下。 有沒有辦法只相對於當前指數tail最后一個？

Answer 1

您可以嘗試這樣的方法，將index轉換為與列B具有相同NaN值的系列，然后使用ffill() ，其中包含所有后續NaN的最后一個非缺失索引：

import pandas as pd
import numpy as np
df['Last_index_notnull'] = df.index.to_series().where(df.B.notnull(), np.nan).ffill()
df['Last_value_notnull'] = df.B.ffill()
df

現在在索引4 ，您知道最后一個非缺失值是4.6 ，索引是1 。

Answer 2

一些有用的方法來了解

last_valid_index
first_valid_index
對於索引4列B

df.B.ix[:4].last_valid_index()

1

您可以通過這種方式將其用於所有列

pd.concat([df.ix[:i].apply(pd.Series.last_valid_index) for i in df.index],
          axis=1).T

從Pandas DataFrame中選擇有限值的最新索引的有效方法？

問題描述

2 個解決方案

解決方案1
5 2016-10-19 01:06:28

解決方案2
4 2016-10-19 03:09:42

從Pandas DataFrame中選擇有限值的最新索引的有效方法？

問題描述

2 個解決方案

解決方案1 5 2016-10-19 01:06:28

解決方案2 4 2016-10-19 03:09:42

解決方案1
5 2016-10-19 01:06:28

解決方案2
4 2016-10-19 03:09:42