根據不同列的部分字符串匹配在新數據框列中創建標簽

Question

首先，我研究了許多SO線程，但似乎沒有一個能正常工作。 基於if-elif-else條件創建一個新列似乎與我正在嘗試的最接近。

在我的df中，我有一列包含產品名稱。 我正在嘗試創建一個函數，該函數在該列的每一行中查找部分字符串匹配項，並根據該匹配項為新df列中的每一行創建一個標簽。 我想使用一個函數，因為我需要匹配大約5或6個模式。

我正在使用contains（）函數查找部分產品標題匹配。 這將返回一個布爾值，然后在函數中使用else / if進行檢查：

def label_sub_cat():
    if data['product'].str.contains('Proceedings', case=False) is True:
        return 'Proceedings'
    elif data['product'].str.contains('DVD', case=False) is True:
        return 'DVD'
    else:
        return 'Other'

data['product_sub_cat'] = data.apply(label_sub_cat(), axis=1)

我不斷收到以下錯誤：

AttributeError: 'DataFrame' object has no attribute 'other'

Answer 1

df.apply（）中的函數應應用於df的每一行，而不是整個df。

In [37]: df = pd.DataFrame({'product':['aProcedings', 'aDVD','vcd']})
In [38]: def label_sub_cat(row):
...:     if 'Procedings' in row['product']:
...:         return 'Proceedings'
...:     elif 'DVD' in row['product']:
...:         return 'DVD'
...:     else:
...:         return 'Other'
...:
...:

In [39]: df['product_sub_cat'] = df.apply(label_sub_cat, axis=1)

In [40]: df
Out[40]:
       product product_sub_cat
0  aProcedings     Proceedings
1         aDVD             DVD
2          vcd           Other

Answer 2

只是改變你的功能

def label_sub_cat(row):
    if row.product.str.contains('Proceedings', case=False) is True:
        return 'Proceedings'
    elif row.product.str.contains('DVD', case=False) is True:
        return 'DVD'
    else:
        return 'Other'

data['product_sub_cat'] = data.apply(label_sub_cat, axis=1)

根據不同列的部分字符串匹配在新數據框列中創建標簽

問題描述

2 個解決方案

解決方案1
1 2018-10-10 16:14:03

解決方案2
1 2018-10-10 16:16:09

根據不同列的部分字符串匹配在新數據框列中創建標簽

問題描述

2 個解決方案

解決方案1 1 2018-10-10 16:14:03

解決方案2 1 2018-10-10 16:16:09

解決方案1
1 2018-10-10 16:14:03

解決方案2
1 2018-10-10 16:16:09