使用 pandas 循環通過 dataframe 時使用 if/else 語句的最快方法

Question

我試圖在遍歷 pandas df 行時運行條件語句，結果代碼非常慢。 例如：

for i, row in df.iterrows():
            # transform date column
            if len(df.loc[i, 'date']) == 7:
                df.loc[i, 'date'] = '0' + df.loc[i, 'date']

df 只有大約 40k 行，而且速度很慢，因為這只是我試圖與這個循環合並的語句之一。 你能用一種更快的方法來做這樣的循環嗎？

謝謝！

Answer 1

找到相關行並修改它們：

df.loc[df["date"].str.len() == 7, "date"] = "0" + df.loc[df["date"].str.len()== 7, "date"]

Answer 2

Series.mask()和Series.where()對於if/else問題也很有用。

mask()將用other替換滿足cond的元素：

 df.date = df.date.mask( cond=df.date.str.len() == 7, other='0' + df.date)

where()會將不滿足cond的元素替換為other ，因此我們可以通過將條件從== 7翻轉到!= 7來獲得相同的結果：
```
 df.date = df.date.where( cond=df.date.str.len(),= 7. other='0' + df.date)
```

但是對於純粹的性能， loc[]稍微快一些：

Answer 3

有兩種方法可以很容易地做到這一點。

第一個選項是使用.apply function，方式如下：

def fix_date(row):
    return row['date'] if len(row['date']) != 7 else '0' + row['date']

df['date'] = df.apply(fix_date, axis=1)

使用 pandas 循環通過 dataframe 時使用 if/else 語句的最快方法

問題描述

3 個解決方案

解決方案1
2 已采納 2021-01-16 16:40:45

解決方案2
0 2021-06-20 08:47:06

解決方案3
-1 2021-01-16 16:33:51

使用 pandas 循環通過 dataframe 時使用 if/else 語句的最快方法

問題描述

3 個解決方案

解決方案1 2 已采納 2021-01-16 16:40:45

解決方案2 0 2021-06-20 08:47:06

解決方案3 -1 2021-01-16 16:33:51

解決方案1
2 已采納 2021-01-16 16:40:45

解決方案2
0 2021-06-20 08:47:06

解決方案3
-1 2021-01-16 16:33:51