熊猫总结多个数据帧

Question

I have multiple dataframes each with a multi-level-index and a value column.我有多个数据框，每个数据框都有一个多级索引和一个值列。 I want to add up all the dataframes on the value columns.我想将值列上的所有数据框加起来。

df1 + df2

Not all the indexes are complete in each dataframe, hence I am getting nan on a row which is not present in all the dataframes.并非每个数据帧中的所有索引都完整，因此我在所有数据帧中不存在的行上得到nan 。

How can I overcome this and treat rows which are not present in any dataframe as having a value of 0?如何克服这个问题并将任何数据框中不存在的行视为值为 0？

Eg.例如。 I want to get我想得到

   val
a    2
b    4
c    3
d    3

from pd.DataFrame({'val':{'a': 1, 'b':2, 'c':3}}) + pd.DataFrame({'val':{'a': 1, 'b':2, 'd':3}}) instead of from pd.DataFrame({'val':{'a': 1, 'b':2, 'c':3}}) + pd.DataFrame({'val':{'a': 1, 'b':2, 'd':3}})而不是

   val
a    2
b    4
c  NaN
d  NaN

Answer 1

use the add method with fill_value=0 parameter.使用带有fill_value=0参数的add方法。

df1 = pd.DataFrame({'val':{'a': 1, 'b':2, 'c':3}})
df2 = pd.DataFrame({'val':{'a': 1, 'b':2, 'd':3}})

df1.add(df2, fill_value=0)

   val
a  2.0
b  4.0
c  3.0
d  3.0

MultiIndex example多索引示例

idx1 = pd.MultiIndex.from_tuples([('a', 'A'), ('a', 'B'), ('b', 'A'), ('b', 'D')])
idx2 = pd.MultiIndex.from_tuples([('a', 'A'), ('a', 'C'), ('b', 'A'), ('b', 'C')])

np.random.seed([3,1415])
df1 = pd.DataFrame(np.random.randn(4, 1), idx1, ['val'])
df2 = pd.DataFrame(np.random.randn(4, 1), idx2, ['val'])

df1

          val
a A -2.129724
  B -1.268466
b A -1.970500
  D -2.259055

df2

          val
a A -0.349286
  C -0.026955
b A  0.316236
  C  0.348782

df1.add(df2, fill_value=0)

          val
a A -2.479011
  B -1.268466
  C -0.026955
b A -1.654264
  C  0.348782
  D -2.259055

More than 2 dataframes超过 2 个数据帧

from functools import reduce

df1 = pd.DataFrame({'val':{'a': 1, 'b':2, 'c':3}})
df2 = pd.DataFrame({'val':{'a': 1, 'b':2, 'd':3}})
df3 = pd.DataFrame({'val':{'e': 1, 'c':2, 'd':3}})
df4 = pd.DataFrame({'val':{'f': 1, 'a':2, 'd':3}})
df5 = pd.DataFrame({'val':{'g': 1, 'f':2, 'd':3}})

reduce(lambda a, b: a.add(b, fill_value=0), [df1, df2, df3, df4, df5])

    val
a   4.0
b   4.0
c   5.0
d  12.0
e   1.0
f   3.0
g   1.0

熊猫总结多个数据帧

问题描述

1 个解决方案

解决方案1
29 已采纳 2016-07-20 04:30:28

MultiIndex example多索引示例

More than 2 dataframes超过 2 个数据帧

熊猫总结多个数据帧

问题描述

1 个解决方案

解决方案1 29 已采纳 2016-07-20 04:30:28

MultiIndex example多索引示例

More than 2 dataframes超过 2 个数据帧

解决方案1
29 已采纳 2016-07-20 04:30:28