如何在pandas中检查文本列是否包含特定字符串

Question

I have following dataframe in pandas 我在pandas中有以下数据帧

 job_desig             salary
 senior analyst        12
 junior researcher     5
 scientist             20
 sr analyst            12

Now I want to generate one column which will have a flag set as below 现在我想生成一个列，其标志设置如下

 sr = ['senior','sr']
 job_desig             salary     senior_profile
 senior analyst        12         1  
 junior researcher     5          0
 scientist             20         0 
 sr analyst            12         1

I am doing following in pandas 我正在跟随熊猫

 df['senior_profile'] = [1 if x.str.contains(sr) else 0 for x in 
                        df['job_desig']]

Answer 1

You can join all values of list by | 您可以通过|加入列表的所有值 for regex OR , pass to Series.str.contains and last cast to integer for True/False to 1/0 mapping: 对于正则表达式OR ，传递给Series.str.contains并最后转换为整数，用于True/False到1/0映射：

df['senior_profile'] = df['job_desig'].str.contains('|'.join(sr)).astype(int)

If necessary, use word boundaries: 如有必要，请使用字边界：

pat = '|'.join(r"\b{}\b".format(x) for x in sr)
df['senior_profile'] = df['job_desig'].str.contains(pat).astype(int)

print (df)
           job_desig  salary  senior_profile
0     senior analyst      12               1
1  junior researcher       5               0
2          scientist      20               0
3         sr analyst      12               1

Soluttion with sets, if only one word values in list: 如果列表中只有一个单词值，则使用集合求解：

df['senior_profile'] = [int(bool(set(sr).intersection(x.split()))) for x in df['job_desig']]

Answer 2

你可以通过简单地使用str.contains来做到这str.contains

df['senior_profile'] = df['job_desig'].str.contains('senior') | df['job_desig'].str.contains('sr')

如何在pandas中检查文本列是否包含特定字符串

问题描述

2 个解决方案

解决方案1
5 已采纳 2019-05-25 06:42:18

解决方案2
3 2019-05-25 06:44:06

如何在pandas中检查文本列是否包含特定字符串

问题描述

2 个解决方案

解决方案1 5 已采纳 2019-05-25 06:42:18

解决方案2 3 2019-05-25 06:44:06

解决方案1
5 已采纳 2019-05-25 06:42:18

解决方案2
3 2019-05-25 06:44:06