根據現有列的部分字符串內容向新的Pandas數據框列添加值

Question

我使用Python Pandas將數據存儲為數據框。 在這些列中，我有一個“產品”列，其中包含品牌名稱和型號（例如Nike Air Jordan，Adidas Gazelle）。 我想創建一個僅包含品牌（例如耐克，阿迪達斯）的新列，稍后將在groupby中使用該列來匯總數據。 從我的研究中，我相信contains和regex可以用來做到這一點。 但是，該實現未起作用。 我也看到了不同的方法，有些使用“ for i in range”，而另一些使用它代替一行代碼。

import pandas as pd
import numpy as np

shoes_df = pd.DataFrame({'Product':['Nike vaporfly', 'Nike Jordans', 'Adidas supernova', 'Asics Kayano', 'Asics GT2010', 'Adidas gazelle', 'Nike air max',
                                  'Nike Lebron'], 'Unit sales':[1500, 1600,
2341, 1345, 4523, 2345, 1634, 3129]})

shoes_df['Brand'] = np.where(shoes_df['Product'].str.contains('Nike.*|Adidas.*').any(), 'Nike|Adidas', np.nan)

print(shoes_df)

這是我嘗試執行“ for i in range”方法的嘗試，該方法也不起作用。 在這里，我收到錯誤消息“ TypeError：'Series'對象是可變的，因此無法進行哈希處理”

shoes_df = pd.DataFrame({'Product':['Nike vaporfly', 'Nike Jordans', 'Adidas supernova', 'Asics Kayano', 'Asics GT2010', 'Adidas gazelle', 'Nike air max',
                                  'Nike Lebron'], 'Unit sales':[1500, 1600, 2341, 1345, 4523,
                                   2345, 1634, 3129]})

for i in shoes_df.iterrows():
    if shoes_df['Product'].str.contains('Nike').any():
        shoes_df.set_value(i, 'Brand', 'Nike')
    elif shoes_df['Product'].str.contains('Adidas').any():
        shoes_df.set_value(i, 'Brand', 'Adidas')
    elif shoes_df['Product'].str.contains('Asics').any():
        shoes_df.set_value(i, 'Brand', 'Asics')
    else:
        shoes_df.set_value(i, 'Brand', np.nan)

Answer 1

選項1 （困難的方式）
str.extract

brands = ['Nike', 'Adidas', 'Asics']
df['Brand'] = df.Product.str.extract('({})'.format('|'.join(brands)), expand=True)

df

            Product  Unit sales   Brand
0     Nike vaporfly        1500    Nike
1      Nike Jordans        1600    Nike
2  Adidas supernova        2341  Adidas
3      Asics Kayano        1345   Asics
4      Asics GT2010        4523   Asics
5    Adidas gazelle        2345  Adidas
6      Nike air max        1634    Nike
7       Nike Lebron        3129    Nike

選項2 （稍微簡單一些）
str.split

df['Brand'] = df.Product.str.split().str[0]
df

            Product  Unit sales   Brand
0     Nike vaporfly        1500    Nike
1      Nike Jordans        1600    Nike
2  Adidas supernova        2341  Adidas
3      Asics Kayano        1345   Asics
4      Asics GT2010        4523   Asics
5    Adidas gazelle        2345  Adidas
6      Nike air max        1634    Nike
7       Nike Lebron        3129    Nike

您可以擴展此范圍，以用NaN替換brands任何內容：

df['Brand'] = np.where(df.Brand.isin(brands), df.Brand, np.nan)

Answer 2

IIUC：

shoes_df['brand'] = shoes_df.Product.str.extract(pat='(Nike|Adidas|Asics)',expand=False)

輸出：

            Product  Unit sales   brand
0     Nike vaporfly        1500    Nike
1      Nike Jordans        1600    Nike
2  Adidas supernova        2341  Adidas
3      Asics Kayano        1345   Asics
4      Asics GT2010        4523   Asics
5    Adidas gazelle        2345  Adidas
6      Nike air max        1634    Nike
7       Nike Lebron        3129    Nike

Answer 3

如果您可以假設品牌永遠是第一位的話，那么該解決方案將使您可以靈活地捕獲已知列表之外的品牌，因此只需添加它即可引起興趣：

shoes_df['Product'].str.extract('^([^\s]+)\s')

根據現有列的部分字符串內容向新的Pandas數據框列添加值

問題描述

3 個解決方案

解決方案1
4 2017-11-14 17:11:32

解決方案2
4 已采納 2017-11-14 17:12:42

解決方案3
0 2017-11-14 18:01:09

根據現有列的部分字符串內容向新的Pandas數據框列添加值

問題描述

3 個解決方案

解決方案1 4 2017-11-14 17:11:32

解決方案2 4 已采納 2017-11-14 17:12:42

解決方案3 0 2017-11-14 18:01:09

解決方案1
4 2017-11-14 17:11:32

解決方案2
4 已采納 2017-11-14 17:12:42

解決方案3
0 2017-11-14 18:01:09