在熊猫中找到匹配条件的第一行的索引

Question

我知道我可以做这样的事情：

df[df['data'] > 3].index.tolist()

并取列表的第一个元素

但是我需要使用它的地方是在一个循环中，有很多迭代和一个非常大的数据帧。 我想获得第一个实例并在那里停止执行，而不是浪费时间收集所有实例然后丢弃除第一个之外的所有结果。

有没有办法用 Pandas 做到这一点？ 手动遍历行非常慢； 将数据帧分成块并在每个块中进行搜索并没有太大帮助（可能是因为它做了一些副本，不确定）。

编辑：这是一个例子

data = {'data': [10, 11, 12, 14, 15, 16, 18]}   # this is over 1M entries in practice
df = pd.DataFrame.from_dict(data)
df.index[df['data']>14].tolist()[0]

正如预期的那样，这将返回 4。

我想要的是找到一种在有一行匹配条件时停止执行的快速方法。

Answer 1

`idxmax`

在评估idxmax之前仍然评估布尔系列

df['data'].gt(3).idxmax()

`argmax`

df.index[(df['data'].to_numpy() > 3).argmax()]

显式函数

def find(s):
    for i, v in s.iteritems():
        if v > 3:
            return i

find(df['data'])

努巴

from numba import njit

@njit
def find(a, b, c):
    for x, y in zip(a, b):
        if y > c:
            return x

find(df.index.to_numpy(), df['data'].to_numpy(), 3)

在熊猫中找到匹配条件的第一行的索引

问题描述

1 个解决方案

解决方案1
3 2020-01-28 22:52:53

`idxmax`

`argmax`

显式函数

努巴

在熊猫中找到匹配条件的第一行的索引

问题描述

1 个解决方案

解决方案1 3 2020-01-28 22:52:53

idxmax

argmax

显式函数

努巴

解决方案1
3 2020-01-28 22:52:53

`idxmax`

`argmax`