如何基于一个或多个 OTHER 列的条件子字符串搜索在 Pandas 数据框中创建一列

Question

我有以下数据框：

import pandas as pd

df = pd.DataFrame({'Manufacturer':['Allen Edmonds', 'Louis Vuitton 23', 'Louis Vuitton 8', 'Gulfstream', 'Bombardier', '23 - Louis Vuitton', 'Louis Vuitton 20'],
                   'System':['None', 'None', '14 Platinum', 'Gold', 'None', 'Platinum 905', 'None']
                  })

如果满足以下条件，我想在名为Pricing的数据框中创建另一列，其中包含值“East Coast”：

a) 如果Manufacturer列中的子字符串与“Louis”匹配，

和

b) 如果System列中的子字符串匹配“Platinum”

以下代码对单个列进行操作：

df['Pricing'] = np.where(df['Manufacturer'].str.contains('Louis'), 'East Coast', 'None')

我尝试使用 AND 将其链接在一起：

df['Pricing'] = np.where(df['Manufacturer'].str.contains('Louis'), 'East Coast', 'None') and np.where(df['Manufacturer'].str.contains('Platimum'), 'East Coast', 'None')

但是，我收到以下错误：

ValueError: The truth value of an array with more than one element is ambiguous. Use `a.any()` or `a.all()`

鉴于上面的两个条件“a”和“b”，任何人都可以帮助我如何实现a.any()或a.all()吗？ 或者，也许有一种更有效的方法可以在不使用np.where情况下创建此列？

提前致谢！

Answer 1

根据您的条件，使用.loc对数据帧进行切片：

df.loc[(df['Manufacturer'].str.contains('Louis')) & 
       (df['System'].str.contains('Platinum')),
      'Pricing'] = 'East Coast'
df

    Manufacturer        System       Pricing
0   Allen Edmonds       None         NaN
1   Louis Vuitton 23    None         NaN
2   Louis Vuitton 8 14  Platinum     East Coast
3   Gulfstream          Gold         NaN
4   Bombardier          None         NaN
5   23 - Louis Vuitton  Platinum 905 East Coast
6   Louis Vuitton 20    None         NaN

Answer 2

def contain(x):
    if 'Louis' in x.Manufacturer and 'Platinum' in x.System:
        return "East Coast" 

df['pricing'] = df.apply(lambda x:contain(x),axis = 1)

如何基于一个或多个 OTHER 列的条件子字符串搜索在 Pandas 数据框中创建一列

问题描述

2 个解决方案

解决方案1
2 已采纳 2020-11-15 00:21:06

解决方案2
1 2020-11-15 00:22:11

如何基于一个或多个 OTHER 列的条件子字符串搜索在 Pandas 数据框中创建一列

问题描述

2 个解决方案

解决方案1 2 已采纳 2020-11-15 00:21:06

解决方案2 1 2020-11-15 00:22:11

解决方案1
2 已采纳 2020-11-15 00:21:06

解决方案2
1 2020-11-15 00:22:11