對 Pandas 數據框中的所有值求和的最佳方法是什么？

Question

我想出了這兩種方法。 有沒有更好的？

>>> import pandas as pd
>>> df = pd.DataFrame({'A': [5, 6, 7], 'B': [7, 8, 9]})
>>> print df.sum().sum()
42
>>> print df.values.sum()
42

只是想確保我沒有遺漏更明顯的東西。

Answer 1

為 Pandas 0.24+ 更新

df.to_numpy().sum()

在 Pandas 0.24+ 之前

df.values

是底層的numpy數組

df.values.sum()

是 numpy sum 方法並且速度更快

Answer 2

添加一些數字來支持這一點：

import numpy as np, pandas as pd
import timeit
df = pd.DataFrame(np.arange(int(1e6)).reshape(500000, 2), columns=list("ab"))

def pandas_test():
    return df['a'].sum()

def numpy_test():
    return df['a'].to_numpy().sum()

timeit.timeit(numpy_test, number=1000)  # 0.5032469799989485
timeit.timeit(pandas_test, number=1000)  # 0.6035906639990571

所以我們在我的機器上獲得了 20% 的性能，僅用於系列求和！

對 Pandas 數據框中的所有值求和的最佳方法是什么？

問題描述

2 個解決方案

解決方案1
51 已采納 2016-08-03 02:49:04

為 Pandas 0.24+ 更新

在 Pandas 0.24+ 之前

解決方案2
1 2020-05-27 12:45:50

對 Pandas 數據框中的所有值求和的最佳方法是什么？

問題描述

2 個解決方案

解決方案1 51 已采納 2016-08-03 02:49:04

為 Pandas 0.24+ 更新

在 Pandas 0.24+ 之前

解決方案2 1 2020-05-27 12:45:50

解決方案1
51 已采納 2016-08-03 02:49:04

解決方案2
1 2020-05-27 12:45:50