使用 str.contains 並基於 if-else 條件創建新列

Question

我有一個名稱“模式”列表，我希望與“url_text”列中的字符串匹配。 如果匹配，即True ，則名稱應打印在新列“pol_names_block”中，如果為False ，則將該行留空。

pattern = '|'.join(pol_names_list) 

print(pattern)
'Jon Kyl|Doug Jones|Tim Kaine|Lindsey Graham|Cory Booker|Kamala Harris|Orrin Hatch|Bernie Sanders|Thom Tillis|Jerry Moran|Shelly Moore Capito|Maggie Hassan|Tom Carper|Martin Heinrich|Steve Daines|Pat Toomey|Todd Young|Bill Nelson|John Barrasso|Chris Murphy|Mike Rounds|Mike Crapo|John Thune|John. McCain|Susan Collins|Patty Murray|Dianne Feinstein|Claire McCaskill|Lamar Alexander|Jack Reed|Chuck Grassley|Catherine Masto|Pat Roberts|Ben Cardin|Dean Heller|Ron Wyden|Dick Durbin|Jeanne Shaheen|Tammy Duckworth|Sheldon Whitehouse|Tom Cotton|Sherrod Brown|Bob Corker|Tom Udall|Mitch McConnell|James Lankford|Ted Cruz|Mike Enzi|Gary Peters|Jeff Flake|Johnny Isakson|Jim Inhofe|Lindsey Graham|Marco Rubio|Angus King|Kirsten Gillibrand|Bob Casey|Chris Van Hollen|Thad Cochran|Richard Burr|Rob Portman|Jon Tester|Bob Menendez|John Boozman|Mazie Hirono|Joe Manchin|Deb Fischer|Michael Bennet|Debbie Stabenow|Ben Sasse|Brian Schatz|Jim Risch|Mike Lee|Elizabeth Warren|Richard Blumenthal|David Perdue|Al Franken|Bill Cassidy|Cory Gardner|Lisa Murkowski|Maria Cantwell|Tammy Baldwin|Joe Donnelly|Roger Wicker|Amy Klobuchar|Joel Heitkamp|Joni Ernst|Chris Coons|Mark Warner|John Cornyn|Ron Johnson|Patrick Leahy|Chuck Schumer|John Kennedy|Jeff Merkley|Roy Blunt|Richard Shelby|John Hoeven|Rand Paul|Dan Sullivan|Tim Scott|Ed Markey'

我正在使用以下代碼df['url_text'].str.contains(pattern)如果 'pattern' 中的名稱出現在 'url_text' 列中的一行中，則結果為True ，否則為False 。 有了這個，我嘗試了以下代碼：

df['pol_name_block'] = df.apply(
    lambda row: pol_names_list if df['url_text'].str.contains(pattern) in row['url_text'] else ' ',
    axis=1
)

我得到錯誤：

TypeError: 'in <string>' requires string as left operand, not Series

Answer 1

從這個玩具 Dataframe：

>>> import pandas as pd
>>> from io import StringIO

>>> df = pd.read_csv(StringIO("""
... id,url_text
... 1,Tim Kaine
... 2,Tim Kain
... 3,Tim
... 4,Lindsey Graham.com
... """), sep=',')
>>> df
    id  url_text
0   1   Tim Kaine
1   2   Tim Kain
2   3   Tim
3   4   Lindsey Graham.com

從pol_names_list ，我們通過如下格式構建patterns ：

patterns = '(%s)' % '|'.join(pol_names_list)

然后，我們可以使用extract方法將值賦給列pol_name_block以獲得預期的結果：

df['pol_name_block'] = df['url_text'].str.extract(patterns)

Output：

    id  url_text            pol_name_block
0   1   Tim Kaine           Tim Kaine
1   2   Tim Kain            NaN
2   3   Tim                 NaN
3   4   Lindsey Graham.com  Lindsey Graham

Answer 2

更改您的模式以將其包圍在捕獲組()周圍並使用extract ：

pattern = fr"({'|'.join(pol_names_list)})"
df['pol_name_block'] = df['url_text'].str.extract(pattern)
print(df)

# Output <- with the sample of @tlentali
   id        url_text  pol_name_block
0   1       Tim Kaine       Tim Kaine
1   2        Tim Kain             NaN
2   3             Tim             NaN
3   4  Lindsey Graham  Lindsey Graham

重要提示：即使有多個匹配項，您也只能提取一個元素。 如果要提取所有元素，則必須使用findall或extractall （只有 output 格式會改變）

# New sample, same pattern
>>> df
   id                      url_text
0   1  Tim Kaine and Lindsey Graham
1   2                      Tim Kain
2   3                           Tim
3   4                Lindsey Graham

# findall
>>> df['url_text'].str.findall(pattern)
0    [Tim Kaine, Lindsey Graham]
1                             []
2                             []
3               [Lindsey Graham]
Name: url_text, dtype: object

# extractall
>>> df['url_text'].str.extractall(pattern)
                      0
  match                
0 0           Tim Kaine
  1      Lindsey Graham
3 0      Lindsey Graham

使用 str.contains 並基於 if-else 條件創建新列

問題描述

2 個解決方案

解決方案1
2 已采納 2022-01-04 13:16:11

解決方案2
2 2022-01-04 13:31:33

使用 str.contains 並基於 if-else 條件創建新列

問題描述

2 個解決方案

解決方案1 2 已采納 2022-01-04 13:16:11

解決方案2 2 2022-01-04 13:31:33

解決方案1
2 已采納 2022-01-04 13:16:11

解決方案2
2 2022-01-04 13:31:33