Python：如何根据列名称中的子字符串匹配从数据集中过滤出列

Question

df_train = pd.read_csv('../xyz.csv')
headers = df_train.columns

I want to filter out those columns in headers which have _pct in their substring.我想过滤掉标题_pct字符串中包含_pct那些列。

Answer 1

Use df.filter使用df.filter

df = pd.DataFrame({'a':[1,2,3], 'b_pct':[1,2,3],'c_pct':[1,2,3],'d':[1]*3})

print(df.filter(items=[i for i in df.columns if '_pct' not in i]))

## or as jezrael suggested
# print(df[[i for i in df.columns if '_pct' not in i]])

Output:输出：

Answer 2

Use:用：

#data from AkshayNevrekar answer
df = df.loc[:, ~df.columns.str.contains('_pct')]
print (df)

Filter solution is not trivial:过滤器解决方案并非微不足道：

df = df.filter(regex=r'^(?!.*_pct).*$')

Thank you, @IanS for another solutions:谢谢@IanS 提供另一种解决方案：

df[df.columns.difference(df.filter(like='_pct').columns).tolist()]

df.drop(df.filter(like='_pct').columns, axis=1)

Answer 3

由于df.columns返回列名列表，您可以使用列表理解并使用简单条件构建新列表：

new_headers = [x for x in headers if '_pct' not in x]

Python：如何根据列名称中的子字符串匹配从数据集中过滤出列

问题描述

3 个解决方案

解决方案1
1 已采纳 2019-03-19 09:06:05

解决方案2
1 2019-03-19 09:10:27

解决方案3
0 2019-03-19 09:03:24

Python：如何根据列名称中的子字符串匹配从数据集中过滤出列

问题描述

3 个解决方案

解决方案1 1 已采纳 2019-03-19 09:06:05

解决方案2 1 2019-03-19 09:10:27

解决方案3 0 2019-03-19 09:03:24

解决方案1
1 已采纳 2019-03-19 09:06:05

解决方案2
1 2019-03-19 09:10:27

解决方案3
0 2019-03-19 09:03:24