![](/img/trans.png)
[英]Adding a new column to pandas dataframe based on value of existing column
[英]Adding values to new Pandas dataframe column based on partial string contents of existing column
我使用Python Pandas將數據存儲為數據框。 在這些列中,我有一個“產品”列,其中包含品牌名稱和型號(例如Nike Air Jordan,Adidas Gazelle)。 我想創建一個僅包含品牌(例如耐克,阿迪達斯)的新列,稍后將在groupby中使用該列來匯總數據。 從我的研究中,我相信contains和regex可以用來做到這一點。 但是,該實現未起作用。 我也看到了不同的方法,有些使用“ for i in range”,而另一些使用它代替一行代碼。
import pandas as pd
import numpy as np
shoes_df = pd.DataFrame({'Product':['Nike vaporfly', 'Nike Jordans', 'Adidas supernova', 'Asics Kayano', 'Asics GT2010', 'Adidas gazelle', 'Nike air max',
'Nike Lebron'], 'Unit sales':[1500, 1600,
2341, 1345, 4523, 2345, 1634, 3129]})
shoes_df['Brand'] = np.where(shoes_df['Product'].str.contains('Nike.*|Adidas.*').any(), 'Nike|Adidas', np.nan)
print(shoes_df)
這是我嘗試執行“ for i in range”方法的嘗試,該方法也不起作用。 在這里,我收到錯誤消息“ TypeError:'Series'對象是可變的,因此無法進行哈希處理”
shoes_df = pd.DataFrame({'Product':['Nike vaporfly', 'Nike Jordans', 'Adidas supernova', 'Asics Kayano', 'Asics GT2010', 'Adidas gazelle', 'Nike air max',
'Nike Lebron'], 'Unit sales':[1500, 1600, 2341, 1345, 4523,
2345, 1634, 3129]})
for i in shoes_df.iterrows():
if shoes_df['Product'].str.contains('Nike').any():
shoes_df.set_value(i, 'Brand', 'Nike')
elif shoes_df['Product'].str.contains('Adidas').any():
shoes_df.set_value(i, 'Brand', 'Adidas')
elif shoes_df['Product'].str.contains('Asics').any():
shoes_df.set_value(i, 'Brand', 'Asics')
else:
shoes_df.set_value(i, 'Brand', np.nan)
選項1 (困難的方式)
str.extract
brands = ['Nike', 'Adidas', 'Asics']
df['Brand'] = df.Product.str.extract('({})'.format('|'.join(brands)), expand=True)
df
Product Unit sales Brand
0 Nike vaporfly 1500 Nike
1 Nike Jordans 1600 Nike
2 Adidas supernova 2341 Adidas
3 Asics Kayano 1345 Asics
4 Asics GT2010 4523 Asics
5 Adidas gazelle 2345 Adidas
6 Nike air max 1634 Nike
7 Nike Lebron 3129 Nike
選項2 (稍微簡單一些)
str.split
df['Brand'] = df.Product.str.split().str[0]
df
Product Unit sales Brand
0 Nike vaporfly 1500 Nike
1 Nike Jordans 1600 Nike
2 Adidas supernova 2341 Adidas
3 Asics Kayano 1345 Asics
4 Asics GT2010 4523 Asics
5 Adidas gazelle 2345 Adidas
6 Nike air max 1634 Nike
7 Nike Lebron 3129 Nike
您可以擴展此范圍,以用NaN
替換brands
任何內容:
df['Brand'] = np.where(df.Brand.isin(brands), df.Brand, np.nan)
IIUC:
shoes_df['brand'] = shoes_df.Product.str.extract(pat='(Nike|Adidas|Asics)',expand=False)
輸出:
Product Unit sales brand
0 Nike vaporfly 1500 Nike
1 Nike Jordans 1600 Nike
2 Adidas supernova 2341 Adidas
3 Asics Kayano 1345 Asics
4 Asics GT2010 4523 Asics
5 Adidas gazelle 2345 Adidas
6 Nike air max 1634 Nike
7 Nike Lebron 3129 Nike
如果您可以假設品牌永遠是第一位的話,那么該解決方案將使您可以靈活地捕獲已知列表之外的品牌,因此只需添加它即可引起興趣:
shoes_df['Product'].str.extract('^([^\s]+)\s')
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.