繁体   English   中英

匹配两个熊猫系列:如何从另一个系列的一个系列中找到一个字符串元素,然后创建一个新列

[英]Matching two pandas series: How to find a string element from one series in another series and then create a new column

我目前正在清理汽车排放数据集。 这是数据集的样子(仅包括前 10 行):

import pandas as pd

cars_em_df = pd.DataFrame({'manufacturer_name_mapped': ['FIAT', 'FIAT','FIAT','FIAT','FIAT'],
'commercial_name':['124 gt multiair auto', '500l wagon pop star t-jet', 
'doblo combi 1.4 95', 'panda  0.9t sge 85 natural power', 'punto 1.4  77 lpg'],
'fuel_type_mapped':['Petrol', 'Petrol', 'Petrol', 'NG-Biomethane', 'LPG'],
'file_year':[2018, 2018, 2018, 2018, 2018], 'emissions': [153,158,165,86,114]})

我最感兴趣的是列'commercial_name' 最终目标是向此数据框中添加另一列,显示'commercial_name'的“清理”版本。 我有一个单独的熊猫系列,其中包含应该使用的“正确”名称而不是这些“凌乱”名称。

real_model_names = pd.Series(['uno', '147', 'panda', 'punto', '166', '4c', 'brera', 'giulia',
'giulietta', 'gtv'])

这些也是字符串。 例如,我想在'commercial_name' 的每一行中查找它是否包含来自'real_model_names series' 的任何名称。 “real_model_names” EG“PUNTO”可以从“commercial_name”列中的条目“PUNTO 1.4 77 LPG”中找到。 那么我希望(在 car_em_df 的一个新列中)在它旁边有“punto” 如果找不到,我希望显示原始的“凌乱”名称。

我尝试定义一个函数,然后我将沿“commercial_name”列应用该函数。 我试过这个:

def str_ops(series):
   for i in real_model_names:
      if i in series:
         return series.replace(series, i)
      else:
         return series

作为下一步,我将应用此函数并将其作为新列添加到数据框中:

commercial_name_cleaned = cars_em_df.commercial_name.apply(str_ops)
cars_em_df.insert(3,value=commercial_name_cleaned,column='commercial_name_cleaned') 

然而,这只是没有做任何事情。 新列仅显示与“commercial_name”完全相同的条目。

有谁知道如何解决这个问题? 有一个更好的方法吗?

非常感谢!

您的循环走在正确的轨道上。 我能想到的最易读和最直接的方法是:

def str_ops(x):
    for y in real_model_names: 
        if y in x: 
            return y 
    return x

cars_em_df['commercial_name_cleaned'] = cars_em_df['commercial_name'].apply(str_ops)

# Result
cars_em_df
  manufacturer_name_mapped                   commercial_name fuel_type_mapped  file_year  emissions    commercial_name_cleaned
0                     FIAT              124 gt multiair auto           Petrol       2018        153       124 gt multiair auto
1                     FIAT         500l wagon pop star t-jet           Petrol       2018        158  500l wagon pop star t-jet
2                     FIAT                doblo combi 1.4 95           Petrol       2018        165         doblo combi 1.4 95
3                     FIAT  panda  0.9t sge 85 natural power    NG-Biomethane       2018         86                      panda
4                     FIAT                 punto 1.4  77 lpg              LPG       2018        114                      punto

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM