如何索引 pandas Dataframe KeyError: False

Question

因此，我试图将一个值过滤为 append 后将其索引到列表中。 到目前为止，这里是代码：

import pandas as pd
import numpy as np
arr_1 = np.array([7, 1, 6, 9, 2, 4])
arr_2 = np.array([5, 8, 9, 10, 2, 3])
arr_3 = np.array([1, 9, 3, 4, 5, 1])

dict_of_arrs = {
    'arr' : [arr_1, arr_2, arr_3]
}
df = pd.DataFrame(dict_of_arrs)

true_list = []
false_list = []
filt = df.arr.apply(lambda x: np.diff(x)>0)
for i in filt:
    for n in i:
        if n==True:
            true_list.append(df.arr[n])
        else:
            false_list.append(df.arr[n])

虽然我得到了错误：

KeyError: False

我也通过执行df.arr[i][n]来进行索引，但正如预期的那样，这给了我错误：

IndexError: Boolean index has wrong length: 5 instead of 3

我想要做的是过滤掉我已经拥有的 True 或 False，然后我想将 append 的所有 True 值的原始编号转换为true_list ，并且与 False 相同。 所以当我print(true_list)时，output 是一个列表列表，每个列表只有 filt==True 的值，对于 false_list 也是如此。 谢谢你。

编辑：期望 output 应该看起来像：

print(true_list)

那么 output 是：

[ 6, 9, 4]
[ 8, 9, 10, 3]
[ 9, 4, 5]

因为在每个列表中，如果后面的值大于最后一个值，则 filt 正在寻找。 因此，那些为真的，将它们的 int 值添加到 true_list 中。 对于 false_list 它看起来像：

[ 1, 2]
[2]
[3, 1]

谢谢

Answer 1

这与@Scott Boston 的答案相同，但没有使用groupby和explode 。

使用np.diff和 boolean 索引。

import numpy as np

df.arr.map(lambda x:np.array(x)[1:][np.diff(x)>=0])
0        [6, 9, 4]
1    [8, 9, 10, 3]
2        [9, 4, 5]
Name: arr, dtype: object

df.arr.map(lambda x:np.array(x)[1:][np.diff(x)<0])
0    [1, 2]
1       [2]
2    [3, 1]
Name: arr, dtype: object

timeit结果：

In [63]: %%timeit
    ...: dfe = df['arr'].explode()
    ...: grp = dfe.groupby(level=0).diff()
    ...: df_g = dfe[grp >= 0]
    ...: df_increasing = df_g.groupby(level=0).agg(list)
    ...: 
    ...: df_l = dfe[grp < 0]
    ...: df_decreasing = df_l.groupby(level=0).agg(list)
    ...:
    ...:
7.16 ms ± 565 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

In [65]: %%timeit
    ...: df_x = df.arr.map(lambda x:np.array(x)[1:][np.diff(x)>=0])
    ...: df_y =df.arr.map(lambda x:np.array(x)[1:][np.diff(x)<0])
    ...:
    ...:
384 µs ± 5.37 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

Answer 2

让我们看看这是否有帮助：

dfe = df['arr'].explode()
grp = dfe.groupby(level=0).diff()
df_g = dfe[grp >= 0]
df_increasing = df_g.groupby(level=0).agg(list)

df_l = dfe[grp < 0]
df_decreasing = df_l.groupby(level=0).agg(list)

print(df_increasing)

# 0        [6, 9, 4]
# 1    [8, 9, 10, 3]
# 2        [9, 4, 5]
# Name: arr, dtype: object

print(df_decreasing)

# 0    [1, 2]
# 1       [2]
# 2    [3, 1]
# Name: arr, dtype: object

如何索引 pandas Dataframe KeyError: False

问题描述

2 个解决方案

解决方案1
10 已采纳 2020-06-06 05:48:06

解决方案2
3 2020-06-06 05:10:18

如何索引 pandas Dataframe KeyError: False

问题描述

2 个解决方案

解决方案1 10 已采纳 2020-06-06 05:48:06

解决方案2 3 2020-06-06 05:10:18

解决方案1
10 已采纳 2020-06-06 05:48:06

解决方案2
3 2020-06-06 05:10:18