Python 数据框矢量化 for 循环

Question

我想使用以当前状态为条件的 for 循环向量化这段 python 代码，以提高速度和效率。

df_B 的值是根据当前状态 ( state ) 和相应的 df_A 值计算的。

任何想法，将不胜感激。

import pandas as pd
df_A = pd.DataFrame({'a': [0, 1, -1, -1, 1, -1, 0, 0] ,})
df_B = pd.DataFrame( data=0, index=df_A.index, columns=['b'])
print(df_A)

state = 0
for index, iter in df_A.iterrows():
    if df_A.loc[index ,'a'] == -1:
        df_B.loc[index ,'b'] = -10 -state
    elif df_A.loc[index, 'a'] == 1:
        df_B.loc[index, 'b'] = 10 - state
    elif df_A.loc[index, 'a'] == 0:
        df_B.loc[index, 'b'] = 0 - state
    temp_state = state
    state += df_B.loc[index, 'b']
print(df_B)

Answer 1

这似乎太过分了。 您的state变量基本上是df_A['a']*10的先前值。 所以我们可以使用shift ：

s = df_A['a'].mul(10) 

df_B['b'] = s - s.shift(fill_value=0)

Answer 2

您可以创建一个类，其中state是一个类变量。 这将允许您编写一个可以提供给apply语句的函数。 这不是矢量化解决方案，但它比iterrows快。 例如：

class ComputeB:
    def __init__(self, state=0):
        self.state = state
    
    def compute_b(self, row):
        row["b"] = row["a"]*10 - self.state
        self.state +=  row["b"]
        return row
df = pd.concat([df_A, df_B], axis = 1)
cb = ComputeB()
df = df.apply(lambda row: cb.compute_b(row), axis = 1)

现在df["b"]包含您想要计算的值。 这确实假设df_A["a"]只能包含 0、1 和 -1。 在我的机器上有一列 40000 个值，问题中的方法需要 10.4 秒，而这种方法需要 2.95 秒。

Python 数据框矢量化 for 循环

问题描述

2 个解决方案

解决方案1
4 已采纳 2020-11-11 19:17:36

解决方案2
1 2020-11-11 18:45:41

Python 数据框矢量化 for 循环

问题描述

2 个解决方案

解决方案1 4 已采纳 2020-11-11 19:17:36

解决方案2 1 2020-11-11 18:45:41

解决方案1
4 已采纳 2020-11-11 19:17:36

解决方案2
1 2020-11-11 18:45:41