![](/img/trans.png)
[英]Make frequency table of unique rows in pandas dataframe containing missing values
[英]How to set the same frequency for all the unique values found in a Pandas DataFrame?
我有一個 Pandas DataFrame 有兩列:一列用於類別(PROBLEM_TYPE),另一列用於類別描述。 顯然,每個類別的描述值計數不同,但由於我計划基於此 DataFrame 訓練 model,因此我試圖為每個類別設置相同的值計數。 這樣我的 model 會更准確。
DataFrame:
filtered_df.head()
PROBLEM_TYPE DESCRIPTION
0 problem_type1 blabla...
1 problem_type1 blablablabla...
2 problem_type3 bla...
3 problem_type7 blablabloblo...
4 problem_type2 blobloble...
這是我調用value_counts()
function 時得到的結果:
filtered_df["PROBLEM_TYPE"].value_counts()
problem_type1 141887
problem_type2 21663
problem_type3 19349
problem_type4 15710
problem_type5 5229
problem_type6 5161
problem_type7 4682
problem_type8 3672
problem_type9 3296
problem_type10 3131
Name: PROBLEM_TYPE, dtype: int64
如您所見,有 10 種不同的問題類型(類別),每種類型都有不同的值計數。 我的問題是如何為所有問題類型設置相同的值計數。 例如,每個問題類型在 DataFrame(即 3131)中都有最小值計數。
換句話說,如何將每個類別的頻率設置為相同,以便下次我運行value_counts()
function 時,它看起來像這樣:
filtered_df["PROBLEM_TYPE"].value_counts()
problem_type1 3131
problem_type2 3131
problem_type3 3131
problem_type4 3131
problem_type5 3131
problem_type6 3131
problem_type7 3131
problem_type8 3131
problem_type9 3131
problem_type10 3131
Name: PROBLEM_TYPE, dtype: int64
提前致謝。
您可以執行以下操作:
mi = df["PROBLEM_TYPE"].value_counts().min()
df_filtered = df.sample(frac=1).groupby("PROBLEM_TYPE").head(mi)
此解決方案有兩個步驟,找到具有最小計數的"PROBLEM_TYPE"
:
mi = df["PROBLEM_TYPE"].value_counts().min()
然后隨機播放您的 dataframe 行並獲取每組的第一個 mi:
df_filtered = df.sample(frac=1).groupby("PROBLEM_TYPE").head(mi)
有關如何洗牌 dataframe 的討論,請參見此處。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.