如何為 Pandas DataFrame 中找到的所有唯一值設置相同的頻率？

Question

我有一個 Pandas DataFrame 有兩列：一列用於類別（PROBLEM_TYPE），另一列用於類別描述。 顯然，每個類別的描述值計數不同，但由於我計划基於此 DataFrame 訓練 model，因此我試圖為每個類別設置相同的值計數。 這樣我的 model 會更准確。

DataFrame：

filtered_df.head()

    PROBLEM_TYPE    DESCRIPTION
0   problem_type1   blabla...
1   problem_type1   blablablabla...
2   problem_type3   bla...
3   problem_type7   blablabloblo...
4   problem_type2   blobloble...

這是我調用value_counts() function 時得到的結果：

filtered_df["PROBLEM_TYPE"].value_counts()

problem_type1            141887
problem_type2             21663
problem_type3             19349
problem_type4             15710
problem_type5              5229
problem_type6              5161
problem_type7              4682
problem_type8              3672
problem_type9              3296
problem_type10             3131
Name: PROBLEM_TYPE, dtype: int64

如您所見，有 10 種不同的問題類型（類別），每種類型都有不同的值計數。 我的問題是如何為所有問題類型設置相同的值計數。 例如，每個問題類型在 DataFrame（即 3131）中都有最小值計數。

換句話說，如何將每個類別的頻率設置為相同，以便下次我運行value_counts() function 時，它看起來像這樣：

filtered_df["PROBLEM_TYPE"].value_counts()

problem_type1              3131
problem_type2              3131
problem_type3              3131
problem_type4              3131
problem_type5              3131
problem_type6              3131
problem_type7              3131
problem_type8              3131
problem_type9              3131
problem_type10             3131
Name: PROBLEM_TYPE, dtype: int64

提前致謝。

Answer 1

您可以執行以下操作：

mi = df["PROBLEM_TYPE"].value_counts().min()
df_filtered = df.sample(frac=1).groupby("PROBLEM_TYPE").head(mi)

此解決方案有兩個步驟，找到具有最小計數的"PROBLEM_TYPE" ：

mi = df["PROBLEM_TYPE"].value_counts().min()

然后隨機播放您的 dataframe 行並獲取每組的第一個 mi：

df_filtered = df.sample(frac=1).groupby("PROBLEM_TYPE").head(mi)

有關如何洗牌 dataframe 的討論，請參見此處。

如何為 Pandas DataFrame 中找到的所有唯一值設置相同的頻率？

問題描述

1 個解決方案

解決方案1
0 已采納 2019-10-14 19:20:52

如何為 Pandas DataFrame 中找到的所有唯一值設置相同的頻率？

問題描述

1 個解決方案

解決方案1 0 已采納 2019-10-14 19:20:52

解決方案1
0 已采納 2019-10-14 19:20:52