将 function 应用于列表系列，而不应用于 pandas

Question

我有一个 dataframe

df = pd.DataFrame({'Binary_List': [[0, 0, 1, 0, 0, 0, 0],
                                   [0, 1, 0, 0, 0, 0, 0],
                                   [0, 0, 1, 1, 0, 0, 0],
                                   [0, 0, 0, 0, 1, 1, 1]]})
df

    Binary_List
0   [0, 0, 1, 0, 0, 0, 0]
1   [0, 1, 0, 0, 0, 0, 0]
2   [0, 0, 1, 1, 0, 0, 0]
3   [0, 0, 0, 0, 1, 1, 1]

我想将 function 应用于每个列表，不使用apply因为在大型数据集上运行时apply非常慢

def count_one(lst):
    index = [i for i, e in enumerate(lst) if e != 0]
    # some more steps 
    return len(index)

df['Value'] = df['Binary_List'].apply(lambda x: count_one(x))
df

    Binary_List             Value
0   [0, 0, 1, 0, 0, 0, 0]   1
1   [0, 1, 0, 0, 0, 0, 0]   1
2   [0, 0, 1, 1, 0, 0, 0]   2
3   [0, 0, 0, 0, 1, 1, 1]   3

我试过用这个，但没有改善

vfunc = np.vectorize(count_one)
df['Value'] = vfunc(df['Binary_List'])

这给了我错误

df['Value'] = count_one(df['Binary_List'])

Answer 1

要获取列表项的长度，您可以使用 str function 如下所示

df = pd.DataFrame({'Binary_List': [[0, 0, 1, 0, 0, 0, 0],
                                   [0, 1, 0, 0, 0, 0, 0],
                                   [0, 0, 1, 1, 0, 0, 0],
                                   [0, 0, 0, 0, 1, 1, 1]]})

df["Binary_List"].astype(np.str).str.count("1")

Answer 2

你可以试试DataFrame.explode ：

df.explode('Binary_List').reset_index().groupby('index').sum()

        Binary_List
index   
0        1
1        1
2        2
3        3

你也可以这样做：

pd.Series([np.array(key).sum() for key in df['Binary_List']])
0    1
1    1
2    2
3    3
dtype: int64

将 function 应用于列表系列，而不应用于 pandas

问题描述

2 个解决方案

解决方案1
0 2019-09-27 15:46:31

解决方案2
0 2019-09-27 15:55:55

将 function 应用于列表系列，而不应用于 pandas

问题描述

2 个解决方案

解决方案1 0 2019-09-27 15:46:31

解决方案2 0 2019-09-27 15:55:55

解决方案1
0 2019-09-27 15:46:31

解决方案2
0 2019-09-27 15:55:55