簡體   English   中英

將數據分為N個類別,每個類別具有相同數量的數據但不同的間隔

[英]categorize data into N categories where each category has the same number of data but different interval

我有一系列股票收益,可能是大約 5000 條數據。 我想將它們分為 5 類。 每個類別應該有幾乎相同數量的數據。

例如,將以下數據分為 3 類:

test = pd.DataFrame({'Returns': [0.003,0.005,0.02,0.01,0.1,0.9,-0.2,-0.13,-0.14,-0.03,0,0.001]})

使用時會有結果:

test.value_counts()


Category:   number of data
0                   3
1                   3
2                   3

數據的間隔可能不同。

試試qcut

test['cate'] = pd.qcut(test.Returns,3).cat.codes
test['cate'].value_counts()
Out[577]: 
0    4
1    4
2    4
Name: cate, dtype: int64

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM