如何有效地對一行pandas數據幀的值進行求和

Question

我有一個包含150萬行和8列的python dataframe 。 我想要組合幾列並創建一個新列。 我知道如何做到這一點，但想知道哪一個更快更有效。 我在這里復制我的代碼

import pandas as pd
import numpy as np
df=pd.Dataframe(columns=['A','B','C'],data=[[1,2,3],[4,5,6],[7,8,9]])

現在這就是我想要實現的目標

df['D']=0.5*df['A']+0.3*df['B']+0.2*df['C']

另一種方法是使用pandas的apply functionality

df['D']=df.apply(lambda row: 0.5*row['A']+0.3*row['B']+0.2*row['C'])

我想知道當我們有1.5萬行並且必須組合8列時哪種方法花費的時間更少

Answer 1

第一種方法更快，因為它是矢量化的：

df=pd.DataFrame(columns=['A','B','C'],data=[[1,2,3],[4,5,6],[7,8,9]])
print (df)

#[30000 rows x 3 columns]
df = pd.concat([df]*10000).reset_index(drop=True)

df['D1']=0.5*df['A']+0.3*df['B']+0.2*df['C']
#similar timings with mul function
#df['D1']=df['A'].mul(0.5)+df['B'].mul(0.3)+df['C'].mul(0.2)

df['D']=df.apply(lambda row: 0.5*row['A']+0.3*row['B']+0.2*row['C'], axis=1)

print (df)

In [54]: %timeit df['D2']=df['A'].mul(0.5)+df['B'].mul(0.3)+df['C'].mul(0.2)
The slowest run took 10.84 times longer than the fastest. This could mean that an intermediate result is being cached.
1000 loops, best of 3: 950 µs per loop

In [55]: %timeit df['D1']=0.5*df['A']+0.3*df['B']+0.2*df['C']
The slowest run took 4.76 times longer than the fastest. This could mean that an intermediate result is being cached.
1000 loops, best of 3: 1.2 ms per loop

In [56]: %timeit df['D']=df.apply(lambda row: 0.5*row['A']+0.3*row['B']+0.2*row['C'], axis=1)
1 loop, best of 3: 928 ms per loop

在1.5M大小的DataFrame另一次測試， apply方法非常慢：

#[1500000 rows x 6 columns]
df = pd.concat([df]*500000).reset_index(drop=True)

In [62]: %timeit df['D2']=df['A'].mul(0.5)+df['B'].mul(0.3)+df['C'].mul(0.2)
10 loops, best of 3: 34.8 ms per loop

In [63]: %timeit df['D1']=0.5*df['A']+0.3*df['B']+0.2*df['C']
10 loops, best of 3: 31.5 ms per loop

In [64]: %timeit df['D']=df.apply(lambda row: 0.5*row['A']+0.3*row['B']+0.2*row['C'], axis=1)
1 loop, best of 3: 47.3 s per loop

Answer 2

使用@ jezrael的設置

df=pd.DataFrame(columns=['A','B','C'],data=[[1,2,3],[4,5,6],[7,8,9]])
df = pd.concat([df]*30000).reset_index(drop=True)

使用dot積更有效率。

np.array([[.5, .3, .2]]).dot(df.values.T).T

如何有效地對一行pandas數據幀的值進行求和

問題描述

2 個解決方案

解決方案1
3 已采納 2016-09-12 07:21:06

解決方案2
3 2016-09-12 08:28:45

定時

如何有效地對一行pandas數據幀的值進行求和

問題描述

2 個解決方案

解決方案1 3 已采納 2016-09-12 07:21:06

解決方案2 3 2016-09-12 08:28:45

定時

解決方案1
3 已采納 2016-09-12 07:21:06

解決方案2
3 2016-09-12 08:28:45