在Pandas中为多个列过滤DataFrame，其中列名称包含模式

Question

在过滤多个列时，我看到了一些示例，其中可以使用类似df[df['A'].str.contains("string") | df['B'].str.contains("string")] df[df['A'].str.contains("string") | df['B'].str.contains("string")] 。

我有多个文件，我想在其中获取每个文件，并从其中包含'email'字符串的列名称中仅获取带有'gmail.com'行。

因此，示例标头可以是：'firstname''lastname''companyname''address''emailid1''emailid2''emailid3'...

列emailid1..2..3具有包含gmail.com emailid1..2..3 ID。 我想获取在其中任何一个位置都可能出现gmail的行。

for file in files:
    pdf = pd.read_csv('Reduced/'+file,delimiter = '\t')
    emailids = [col for col in pdf.columns if 'email' in col]
    #  pdf['gmail' in pdf[emailids]]

Answer 1

您可以将any与boolean indexing一起使用：

pdf = pd.DataFrame({'A':[1,2,3],
                   'email1':['gmail.com','t','f'],
                   'email2':['u','gmail.com','t'],
                   'D':[1,3,5],
                   'E':[5,3,6],
                   'F':[7,4,3]})
print (pdf)
   A  D  E  F     email1     email2
0  1  1  5  7  gmail.com          u
1  2  3  3  4          t  gmail.com
2  3  5  6  3          f          t

#filter column names                   
emailids = [col for col in pdf.columns if 'email' in col]
print (emailids)
['email1', 'email2']

#apply string function for each filtered column
df = pd.concat([pdf[col].str.contains('gmail.com') for col in pdf[emailids]], axis=1)

print (df)
  email1 email2
0   True  False
1  False   True
2  False  False

#filter at least one True by any
print (pdf[df.any(1)])
   A  D  E  F     email1     email2
0  1  1  5  7  gmail.com          u
1  2  3  3  4          t  gmail.com

Answer 2

给定示例输入：

df = pd.DataFrame({'email': ['test@example.com', 'someone@gmail.com'], 'somethingelse': [1, 2], 'another_email': ['whatever@example.com', 'something@example.com']})

例如：

           another_email              email  somethingelse
0   whatever@example.com   test@example.com              1
1  something@example.com  someone@gmail.com              2

您可以过滤出包含电子邮件的列，查找gmail.com或所需的任何文本，然后选择子集，例如：

df[df.filter(like='email').applymap(lambda L: 'gmail.com' in L).any(axis=1)]

这给你：

           another_email              email  somethingelse
1  something@example.com  someone@gmail.com              2

在Pandas中为多个列过滤DataFrame，其中列名称包含模式

问题描述

2 个解决方案

解决方案1
1 2016-09-06 11:53:18

解决方案2
1 已采纳 2016-09-06 11:56:18

在Pandas中为多个列过滤DataFrame，其中列名称包含模式

问题描述

2 个解决方案

解决方案1 1 2016-09-06 11:53:18

解决方案2 1 已采纳 2016-09-06 11:56:18

解决方案1
1 2016-09-06 11:53:18

解决方案2
1 已采纳 2016-09-06 11:56:18