Pandas 循環到 numpy。Numpy 將字符串在數組中的出現次數計數為非零

Question

假設我有以下 dataframe，括號中包含元素類型

  Column1(int) Column2(str)  Column3(str)
0     2             02            34
1     2             34            02
2     2             80            85
3     2             91            09
4     2             09            34

使用 pandas 循環時，我使用以下代碼。 如果Column1 = 2, count how many times Column2 occurs in Column 3 and assign the count() to Column4 ：

import pandas as pd

for index in df.index:
    if df.loc[index, "Column"] == 2:
        df.loc[index, "Column4"] = df.loc[
            df.Column3 == df.loc[index, "Column2"], "Column3"
        ].count()

我正在嘗試使用 NumPy 和數組方法來提高效率。 我曾嘗試翻譯該方法，但沒有成功。

import numpy as np

# turn Column3 to array
array = df.loc[:, "Column3"].values

index = df.index
df.assign(
    Column4=lambda x: np.where(
        (x["Column1"] == 2), np.count_nonzero(array == df.loc[index, "Column2"]), "F"
    )
)

預計 output

  Column1(int) Column2(str)  Column3(str)  Column4(int)
0     2             02            34           1
1     2             34            02           2
2     2             80            85           0
3     2             91            09           0
4     2             09            34           1

Answer 1

您可以在Column3 pd.Series.value_counts其用作Column2的映射，您可以將Series object 傳遞給pd.Series.map ， pd.Series.fillna的缺失值為0

s = df['Column2'].map(df['Column3'].value_counts()).fillna(0)
df.loc[df['Column1'].eq(2), 'Column4'] = s
df['Column4'] = df['Column4'].fillna('F') 
# Fills with 'F' where `Column1` is not equal to 2.

   Column1  Column2  Column3  Column4
0        2        2       34      1.0
1        2       34        2      2.0
2        2       80       85      0.0
3        2       91        9      0.0
4        2        9       34      1.0

或者你可以在這里使用np.where 。

s = df['Column2'].map(df['Column3'].value_counts()).fillna(0)
df['Column4'] = np.where(df['Column1'].eq(2), s, 'F')

Pandas 循環到 numpy。Numpy 將字符串在數組中的出現次數計數為非零

問題描述

1 個解決方案

解決方案1
1 已采納 2020-10-25 17:07:55

Pandas 循環到 numpy。Numpy 將字符串在數組中的出現次數計數為非零

問題描述

1 個解決方案

解決方案1 1 已采納 2020-10-25 17:07:55

解決方案1
1 已采納 2020-10-25 17:07:55