[英]Pandas DataFrames with NaNs equality comparison
在单元测试某些功能的上下文中,我试图使用python pandas建立2个DataFrames的相等性:
ipdb> expect
1 2
2012-01-01 00:00:00+00:00 NaN 3
2013-05-14 12:00:00+00:00 3 NaN
ipdb> df
identifier 1 2
timestamp
2012-01-01 00:00:00+00:00 NaN 3
2013-05-14 12:00:00+00:00 3 NaN
ipdb> df[1][0]
nan
ipdb> df[1][0], expect[1][0]
(nan, nan)
ipdb> df[1][0] == expect[1][0]
False
ipdb> df[1][1] == expect[1][1]
True
ipdb> type(df[1][0])
<type 'numpy.float64'>
ipdb> type(expect[1][0])
<type 'numpy.float64'>
ipdb> (list(df[1]), list(expect[1]))
([nan, 3.0], [nan, 3.0])
ipdb> df1, df2 = (list(df[1]), list(expect[1])) ;; df1 == df2
False
假设我要针对整个df
(包括NaN
职位)测试整个expect
,那么我在做什么错呢?
比较包含NaN
的Series / DataFrames相等性的最简单方法是什么?
您可以将assert_frame_equals与check_names = False一起使用(以免检查索引/列的名称),如果它们不相等,则会引发:
In [11]: from pandas.testing import assert_frame_equal
In [12]: assert_frame_equal(df, expected, check_names=False)
您可以将其包装在具有以下内容的函数中:
try:
assert_frame_equal(df, expected, check_names=False)
return True
except AssertionError:
return False
在最近的熊猫中,此功能已添加为.equals
:
df.equals(expected)
NaN
的特性之一是NaN != NaN
为True
。
查看此答案 ,以了解使用numexpr
进行此操作的好方法。
(a == b) | ((a != a) & (b != b))
这样说(用伪代码):
a == b or (isnan(a) and isnan(b))
因此, a
等于b
,或者a
和b
均为NaN
。
如果帧较小,则assert_frame_equal
可以。 但是,对于大帧(1000万行), assert_frame_equal
几乎没有用。 我不得不打断它,这花了很长时间。
In [1]: df = DataFrame(rand(1e7, 15))
In [2]: df = df[df > 0.5]
In [3]: df2 = df.copy()
In [4]: df
Out[4]:
<class 'pandas.core.frame.DataFrame'>
Int64Index: 10000000 entries, 0 to 9999999
Columns: 15 entries, 0 to 14
dtypes: float64(15)
In [5]: timeit (df == df2) | ((df != df) & (df2 != df2))
1 loops, best of 3: 598 ms per loop
(大概)所需的单个bool
值的timeit
,指示两个DataFrame
是否相等:
In [9]: timeit ((df == df2) | ((df != df) & (df2 != df2))).values.all()
1 loops, best of 3: 687 ms per loop
就像@PhillipCloud的答案一样,但写得更多
In [26]: df1 = DataFrame([[np.nan,1],[2,np.nan]])
In [27]: df2 = df1.copy()
他们真的是等效的
In [28]: result = df1 == df2
In [29]: result[pd.isnull(df1) == pd.isnull(df2)] = True
In [30]: result
Out[30]:
0 1
0 True True
1 True True
df2中不存在的df2中的nan
In [31]: df2 = DataFrame([[np.nan,1],[np.nan,np.nan]])
In [32]: result = df1 == df2
In [33]: result[pd.isnull(df1) == pd.isnull(df2)] = True
In [34]: result
Out[34]:
0 1
0 True True
1 False True
您还可以填充一个您不知道的值
In [38]: df1.fillna(-999) == df1.fillna(-999)
Out[38]:
0 1
0 True True
1 True True
df.fillna(0) == df2.fillna(0)
您可以使用fillna()
。 这里的文档 。
from pandas import DataFrame
# create a dataframe with NaNs
df = DataFrame([{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20}])
df2 = df
# comparison fails!
print df == df2
# all is well
print df.fillna(0) == df2.fillna(0)
使用==和np.NaN进行的任何相等比较都为False,即使np.NaN == np.NaN也为False。
简单df1.fillna('NULL') == df2.fillna('NULL')
,如果'NULL'不是原始数据中的值,则df1.fillna('NULL') == df2.fillna('NULL')
。
为了安全起见,请执行以下操作:
示例a)比较两个具有NaN值的数据帧
bools = (df1 == df2)
bools[pd.isnull(df1) & pd.isnull(df2)] = True
assert bools.all().all()
示例b)过滤df1中与df2不匹配的行
bools = (df1 != df2)
bools[pd.isnull(df1) & pd.isnull(df2)] = False
df_outlier = df1[bools.all(axis=1)]
(注意:这是错误的-bools [pd.isnull(df1)== pd.isnull(df2)] = False)
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.