繁体   English   中英

根据列名列表过滤 Pandas Dataframe

[英]Filtering Pandas Dataframe Based on List of Column Names

我有一个 pandas dataframe 可能有 1000 列。 但是我不需要这么多列>只有当它们匹配/开始/包含特定字符串时才需要列。

所以可以说我有一个 dataframe 列,如 df.columns =

  HYTY, ABNH, CDKL, GHY@UIKI,  BYUJI@#hy  BYUJI@tt  BBNNII#5  FGATAY@J ....

我想要 select 列,其名称仅像 HYTY、CDKL、BYUJI* 和 BBNNI*

所以我想做的是创建一个正则表达式列表,例如:

  import re 

  relst = ['HYTY', 'CDKL*', 'BYUJI*', 'BBNI*']


  my_w_lst = [re.escape(s) for s in relst]

  mask_pattrn = '|'.join(my_w_lst)

然后我创建逻辑向量给我一个 TRUE/FALSE 列表来说明字符串是否存在。 但是,不了解如何从中获取仅那些真正选择的列的 dataframe。

任何帮助将不胜感激。

使用你已经拥有的,你可以通过你的面具来过滤,比如:

df.filter(regex=mask_pattrn)

我们可以startswith

relst = ['CDKL', 'BYUJI', 'BBNI']

subdf = df.loc[:,df.columns.str.startswith(tuple(relst))|df.columns.isin(['HYTY'])]

使用re.findall() 它将为您提供要传递给df[mylist]的列列表

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM