np.mean和pandas.mean之間的區別

Question

import numpy as np
import pandas as pd
import numpy.ma as ma

a = np.zeros((2,3,2))
a[0]=1
a[1]=3

a[0,0,1]=np.nan
a[0,1,1]=np.nan
a=ma.masked_invalid(a)
a
Out[17]: 
masked_array(data =
 [[[1.0 --]
  [1.0 --]
  [1.0 1.0]]

 [[3.0 3.0]
  [3.0 3.0]
  [3.0 3.0]]],
             mask =
 [[[False  True]
  [False  True]
  [False False]]

 [[False False]
  [False False]
  [False False]]],
       fill_value = 1e+20)

我想使用np.mean獲得結果，如下所示：

b = np.mean(a,axis=0)
b

Out[18]: 

masked_array(data =
 [[2.0 3.0]
 [2.0 3.0]
 [2.0 2.0]],
             mask =
 [[False False]
 [False False]
 [False False]],
       fill_value = 1e+20)

當計算沿axis=0的數組的平均值時，它將忽略NaN值並保留被掩碼的數組。

但是，當我使用熊貓創建Panel並計算數組的平均值時：

p = pd.Panel(a)
b1=p.mean(axis=0)
b1.values
Out[25]: 
array([[ 2. ,  1.5],
       [ 2. ,  1.5],
       [ 2. ,  2. ]])

似乎pandas中的mean方法將NaN值視為零，並且沒有掩碼數組。

我的問題是如何使用pandas獲得與使用np.mean相同的結果？

Answer 1

將面板構建為

p = pd.Panel(a.data)

然后您可以獲得您所得到的：

In [334]: p.mean(axis=0)
Out[334]: 
   0  1
0  2  3
1  2  3
2  2  2

np.mean和pandas.mean之間的區別

問題描述

1 個解決方案

解決方案1
0 2014-01-13 12:35:11

np.mean和pandas.mean之間的區別

問題描述

1 個解決方案

解決方案1 0 2014-01-13 12:35:11

解決方案1
0 2014-01-13 12:35:11