我可以用分組數據框中的列模式替換Nans嗎？

Question

我有一些看起來像...的數據

Year      Make   Model  Trim
2007     Acura  TL      Base
2010     Dodge  Avenger SXT
2009     Dodge  Caliber SXT
2008     Dodge  Caliber SXT
2008     Dodge  Avenger SXT

Trim有一些缺失的值。 我想做的事情如下：

按年份分組和型號
如果該組缺少valyes，則進行歸因修剪

因此，例如，我將研究所有2007 Acura TL。 可能看起來像

 Year      Make   Model Trim
2007     Acura  TL      Base
2007     Acura  TL      XLR
2007     Acura  TL      NaN
2007     Acura  TL      Base

然后，我將用Base來估算Nan（因為Base是Mode）。 重要的是要記住，我要對Year，Make和Model的每個組執行此操作。

Answer 1

使用方式

In [215]: df
Out[215]:
   Year   Make    Model  Trim
0  2007  Acura       TL  Base
1  2010  Dodge  Avenger   SXT
2  2009  Dodge  Caliber   NaN
3  2008  Dodge  Caliber   SXT
4  2008  Dodge  Avenger   SXT

In [216]: df.Trim.fillna(df.Trim.mode()[0])
Out[216]:
0    Base
1     SXT
2     SXT
3     SXT
4     SXT
Name: Trim, dtype: object

使用inplace=True實際設置

In [217]: df.Trim.fillna(df.Trim.mode()[0], inplace=True)

In [218]: df
Out[218]:
   Year   Make    Model  Trim
0  2007  Acura       TL  Base
1  2010  Dodge  Avenger   SXT
2  2009  Dodge  Caliber   SXT
3  2008  Dodge  Caliber   SXT
4  2008  Dodge  Avenger   SXT

如果您正在小組工作

In [227]: df
Out[227]:
   Year   Make Model  Trim
0  2007  Acura    TL  Base
1  2007  Acura    TL   XLR
2  2007  Acura    TL   NaN
3  2007  Acura    TL  Base

In [228]: (df.groupby(['Year', 'Make', 'Model'])['Trim']
             .apply(lambda x: x.fillna(x.mode()[0])))
     ...:
Out[228]:
0    Base
1     XLR
2    Base
3    Base
Name: Trim, dtype: object

Answer 2

使用groupby then mode 。 請注意， mode返回一個數組，您想獲取它的第一個元素。 @John Galt為此值得贊揚，得到我的支持。

我使用assign創建具有覆蓋的Trim列版本的df副本。

df.assign(
    Trim=df.groupby(
        ['Year', 'Make', 'Model']
    ).Trim.apply(
        lambda x: x.fillna(x.mode()[0])
    )
)

   Year   Make Model  Trim
0  2007  Acura    TL  Base
1  2007  Acura    TL   XLR
2  2007  Acura    TL  Base
3  2007  Acura    TL  Base

您可以直接使用覆蓋該列

df['Trim'] = df.groupby(
    ['Year', 'Make', 'Model']
).Trim.apply(
    lambda x: x.fillna(x.mode()[0])
)

我可以用分組數據框中的列模式替換Nans嗎？

問題描述

2 個解決方案

解決方案1
3 2017-08-17 17:52:45

解決方案2
1 已采納 2017-08-17 18:05:03

我可以用分組數據框中的列模式替換Nans嗎？

問題描述

2 個解決方案

解決方案1 3 2017-08-17 17:52:45

解決方案2 1 已采納 2017-08-17 18:05:03

解決方案1
3 2017-08-17 17:52:45

解決方案2
1 已采納 2017-08-17 18:05:03