為什么在聚合不存在的列時，pandas會為列值提供NaN？

Question

我想在下面的DataFrame中按字母數字求和：

In [10]: df
Out[10]:
  letter  number
0      A       1
1      A       2
2      B       3
3      B       4
4      C       5
5      C       6

[6 rows x 2 columns]

這很容易實現：

In [11]: df.groupby('letter')[['number']].sum()
Out[11]:
        number
letter
A            3
B            7
C           11

[3 rows x 1 columns]

但如果我拼錯我的專欄，我會得到NaN值：

In [12]: df.groupby('letter')[['numberrrrr']].sum()
Out[12]:
        numberrrrr
letter
A              NaN
B              NaN
C              NaN

[3 rows x 1 columns]

這導致我們的團隊非常追逐確定bug的位置。 相反，我們想要一個錯誤陳述，如：

In [13]: df.groupby('letter')['numberrrrr'].sum()
---------------------------------------------------------------------------
KeyError                                  Traceback (most recent call last)
<ipython-input-13-8ebcdeee8710> in <module>()
----> 1 df.groupby('letter')['numberrrrr'].sum()

/usr/local/Anaconda/lib/python2.7/site-packages/pandas/core/groupby.pyc in __getitem__(self, key)
   2475         else:
   2476             if key not in self.obj:  # pragma: no cover
-> 2477                 raise KeyError(str(key))
   2478             # kind of a kludge
   2479             return SeriesGroupBy(self.obj[key], selection=key,

KeyError: 'numberrrrr'

是否有任何特殊原因，當請求的列丟失時，從聚合返回DataFrame不會導致錯誤？

這是關於pandas 0.13.1。

Answer 1

這在master / 0.14.0（本周結束）中修復; 如果您想嘗試，rc1就在這里

In [7]: df.groupby('letter')[['number']].sum()
Out[7]: 
        number
letter        
A            3
B            7
C           11

In [8]: df.groupby('letter')[['numberrrr']].sum()
KeyError: "Columns not found: 'numberrrr'"

In [9]: pd.__version__
Out[9]: '0.14.0rc1-43-g0dec048'

為什么在聚合不存在的列時，pandas會為列值提供NaN？

問題描述

1 個解決方案

解決方案1
3 已采納 2014-05-27 17:20:49

為什么在聚合不存在的列時，pandas會為列值提供NaN？

問題描述

1 個解決方案

解決方案1 3 已采納 2014-05-27 17:20:49

解決方案1
3 已采納 2014-05-27 17:20:49