檢查 pandas 列是否包含列表中的所有元素

Question

我有一個這樣的 df：

frame = pd.DataFrame({'a' : ['a,b,c', 'a,c,f', 'b,d,f','a,z,c']})

以及項目清單：

letters = ['a','c']

我的目標是從frame中獲取至少包含letters的 2 個元素的所有行

我想出了這個解決方案：

for i in letters:
    subframe = frame[frame['a'].str.contains(i)]

這給了我想要的東西，但它可能不是可擴展性方面的最佳解決方案。 有沒有“矢量化”的解決方案？ 謝謝

Answer 1

我會構建一個系列列表，然后應用矢量化np.all ：

contains = [frame['a'].str.contains(i) for i in letters]
resul = frame[np.all(contains, axis=0)]

它按預期提供：

       a
0  a,b,c
1  a,c,f
3  a,z,c

Answer 2

一種方法是使用str.split將列值拆分為列表，並檢查set(letters)是否是所獲得列表的subset ：

letters_s = set(letters)
frame[frame.a.str.split(',').map(letters_s.issubset)]

     a
0  a,b,c
1  a,c,f
3  a,z,c

基准：

def serge(frame):
    contains = [frame['a'].str.contains(i) for i in letters]
    return frame[np.all(contains, axis=0)]

def yatu(frame):
    letters_s = set(letters)
    return frame[frame.a.str.split(',').map(letters_s.issubset)]

def austin(frame):
    mask =  frame.a.apply(lambda x: np.intersect1d(x.split(','), letters).size > 0)
    return frame[mask]

def datanovice(frame):
    s = frame['a'].str.split(',').explode().isin(letters).groupby(level=0).cumsum()
    return frame.loc[s[s.ge(2)].index.unique()]

perfplot.show(
    setup=lambda n: pd.concat([frame]*n, axis=0).reset_index(drop=True), 

    kernels=[
        lambda df: serge(df),
        lambda df: yatu(df),
        lambda df: df[df['a'].apply(lambda x: np.all([*map(lambda l: l in x, letters)]))],
        lambda df: austin(df),
        lambda df: datanovice(df),
    ],

    labels=['serge', 'yatu', 'bruno','austin', 'datanovice'],
    n_range=[2**k for k in range(0, 18)],
    equality_check=lambda x, y: x.equals(y),
    xlabel='N'
)

Answer 3

這也解決了：

frame[frame['a'].apply(lambda x: np.all([*map(lambda l: l in x, letters)]))]

Answer 4

您可以使用np.intersect1d ：

import pandas as pd
import numpy as np

frame = pd.DataFrame({'a' : ['a,b,c', 'a,c,f', 'b,d,f','a,z,c']})
letters = ['a','c']

mask =  frame.a.apply(lambda x: np.intersect1d(x.split(','), letters).size > 0)
print(frame[mask])

    a
0  a,b,c
1  a,c,f
3  a,z,c

Answer 5

使用set.issubset ：

frame = pd.DataFrame({'a' : ['a,b,c', 'a,c,f', 'b,d,f','a,z,c','x,y']})
letters = ['a','c']

frame[frame['a'].apply(lambda x: set(letters).issubset(x))]

Out:

       a
0  a,b,c
1  a,c,f
3  a,z,c

Answer 6

IIUC， explode和布爾過濾器

這個想法是創建一個單一的系列，然后我們可以通過索引進行分組，使用累積總和來計算列表的真實出現次數

s = frame['a'].str.split(',').explode().isin(letters).groupby(level=0).cumsum()

print(s)

0    1.0
0    1.0
0    2.0
1    1.0
1    2.0
1    2.0
2    0.0
2    0.0
2    0.0
3    1.0
3    1.0
3    2.0

frame.loc[s[s.ge(2)].index.unique()]

out:

       a
0  a,b,c
1  a,c,f
3  a,z,c

Answer 7

frame.iloc[[x for x in range(len(frame)) if set(letters).issubset(frame.iloc[x,0])]]

輸出：

        a
 0  a,b,c
 1  a,c,f
 3  a,z,c

時間

%%timeit
#hermes
frame.iloc[[x for x in range(len(frame)) if set(letters).issubset(frame.iloc[x,0])]]

輸出

300 µs ± 32.9 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

檢查 pandas 列是否包含列表中的所有元素

問題描述

7 個解決方案

解決方案1
19 已采納 2020-03-30 14:00:06

解決方案2
18 2020-03-30 13:57:48

解決方案3
9 2020-03-30 13:57:57

解決方案4
8 2020-03-30 14:02:41

解決方案5
7 2020-03-30 14:00:48

解決方案6
5 2020-03-30 13:56:39

解決方案7
1 2020-04-04 19:52:17

檢查 pandas 列是否包含列表中的所有元素

問題描述

7 個解決方案

解決方案1 19 已采納 2020-03-30 14:00:06

解決方案2 18 2020-03-30 13:57:48

解決方案3 9 2020-03-30 13:57:57

解決方案4 8 2020-03-30 14:02:41

解決方案5 7 2020-03-30 14:00:48

解決方案6 5 2020-03-30 13:56:39

解決方案7 1 2020-04-04 19:52:17

解決方案1
19 已采納 2020-03-30 14:00:06

解決方案2
18 2020-03-30 13:57:48

解決方案3
9 2020-03-30 13:57:57

解決方案4
8 2020-03-30 14:02:41

解決方案5
7 2020-03-30 14:00:48

解決方案6
5 2020-03-30 13:56:39

解決方案7
1 2020-04-04 19:52:17