根據列列表值篩選 pandas dataframe

Question

我的dataframe有很多欄目。 這些列之一是數組

df
Out[191]: 
       10012005  10029008  10197000  ...  filename_int  filename      result
0           0.0       0.0       0.0  ...             1       1.0  [280, NON]
1           0.0       0.0       0.0  ...            10      10.0  [286, NON]
2           0.0       0.0       0.0  ...           100     100.0  [NON, 285]
3           0.0       0.0       0.0  ...         10000   10000.0  [NON, 286]
4           0.0       0.0       0.0  ...         10001   10001.0       [NON]
        ...       ...       ...  ...           ...       ...         ...
52708       0.0       0.0       0.0  ...          9995    9995.0       [NON]
52709       0.0       0.0       0.0  ...          9996    9996.0       [NON]
52710       0.0       0.0       0.0  ...          9997    9997.0  [285, NON]
52711       0.0       0.0       0.0  ...          9998    9998.0       [NON]
52712       0.0       0.0       0.0  ...          9999    9999.0       [NON]

[52713 rows x 4289 columns]

列結果是這些值的數組

[NON]
[123,NON]
[357,938,837]
[455,NON,288]
[388,929,NON,020]

我希望我的過濾器 dataframe 只顯示具有非 NON 值的記錄

因此值如

[NON,NON]
[NON]
[]

這些將被排除在外

僅在文件管理器值中

[123,NON]
[357,938,837]
[455,NON,288]
[388,929,NON,020]

我試過這段代碼

df[len(df["result"])!="NON"]

但我得到這個錯誤！

  File "pandas\_libs\hashtable_class_helper.pxi", line 1614, in pandas._libs.hashtable.PyObjectHashTable.get_item

KeyError: True

如何過濾我的 dataframe？

Answer 1

在此處嘗試使用map和lambda ：

df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [[280, 'NON'], ['NON'], [], [285]] })
df

   A           B
0  1  [280, NON]
1  2       [NON]
2  3          []
3  4       [285]

df[df['B'].map(lambda x: any(y != 'NON' for y in x))]

   A           B
0  1  [280, NON]
3  4       [285]

如果列表中至少有 1 個項目是“NON”，則map中的生成器表達式返回 True。

Answer 2

您可以使用apply來識別滿足您的條件的行。 在這里，過濾器起作用是因為 apply 返回boolean 。

import pandas as pd
import numpy as np

vals = [280, 285, 286, 'NON', 'NON', 'NON']
listcol = [np.random.choice(vals, 3) for _ in range(100)] 
df = pd.DataFrame({'vals': listcol})

def is_non(l):
    return len([i for i in l if i != 'NON']) > 0

df.loc[df.vals.apply(is_non), :]

Answer 3

我會做

s=pd.DataFrame(df.B.tolist())
df=df[(s.ne('NON')&s.notnull()).any(1).to_numpy()].copy()
   A           B
0  1  [280, NON]
3  4       [285]

根據列列表值篩選 pandas dataframe

問題描述

3 個解決方案

解決方案1
2 已采納 2020-04-25 00:28:55

解決方案2
1 2020-04-25 00:29:20

解決方案3
1 2020-04-25 01:06:38

根據列列表值篩選 pandas dataframe

問題描述

3 個解決方案

解決方案1 2 已采納 2020-04-25 00:28:55

解決方案2 1 2020-04-25 00:29:20

解決方案3 1 2020-04-25 01:06:38

解決方案1
2 已采納 2020-04-25 00:28:55

解決方案2
1 2020-04-25 00:29:20

解決方案3
1 2020-04-25 01:06:38