簡體   English   中英

如何為 Pandas DataFrame 中找到的所有唯一值設置相同的頻率?

[英]How to set the same frequency for all the unique values found in a Pandas DataFrame?

我有一個 Pandas DataFrame 有兩列:一列用於類別(PROBLEM_TYPE),另一列用於類別描述。 顯然,每個類別的描述值計數不同,但由於我計划基於此 DataFrame 訓練 model,因此我試圖為每個類別設置相同的值計數。 這樣我的 model 會更准確。

DataFrame:

filtered_df.head()

    PROBLEM_TYPE    DESCRIPTION
0   problem_type1   blabla...
1   problem_type1   blablablabla...
2   problem_type3   bla...
3   problem_type7   blablabloblo...
4   problem_type2   blobloble...

這是我調用value_counts() function 時得到的結果:

filtered_df["PROBLEM_TYPE"].value_counts()

problem_type1            141887
problem_type2             21663
problem_type3             19349
problem_type4             15710
problem_type5              5229
problem_type6              5161
problem_type7              4682
problem_type8              3672
problem_type9              3296
problem_type10             3131
Name: PROBLEM_TYPE, dtype: int64

如您所見,有 10 種不同的問題類型(類別),每種類型都有不同的值計數。 我的問題是如何為所有問題類型設置相同的值計數。 例如,每個問題類型在 DataFrame(即 3131)中都有最小值計數。

換句話說,如何將每個類別的頻率設置為相同,以便下次我運行value_counts() function 時,它看起來像這樣:

filtered_df["PROBLEM_TYPE"].value_counts()

problem_type1              3131
problem_type2              3131
problem_type3              3131
problem_type4              3131
problem_type5              3131
problem_type6              3131
problem_type7              3131
problem_type8              3131
problem_type9              3131
problem_type10             3131
Name: PROBLEM_TYPE, dtype: int64

提前致謝。

您可以執行以下操作:

mi = df["PROBLEM_TYPE"].value_counts().min()
df_filtered = df.sample(frac=1).groupby("PROBLEM_TYPE").head(mi)

此解決方案有兩個步驟,找到具有最小計數的"PROBLEM_TYPE"

mi = df["PROBLEM_TYPE"].value_counts().min()

然后隨機播放您的 dataframe 行並獲取每組的第一個 mi:

df_filtered = df.sample(frac=1).groupby("PROBLEM_TYPE").head(mi)

有關如何洗牌 dataframe 的討論,請參見此處

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM