[英]categorize data into N categories where each category has the same number of data but different interval
我有一系列股票收益,可能是大約 5000 條數據。 我想將它們分為 5 類。 每個類別應該有幾乎相同數量的數據。
例如,將以下數據分為 3 類:
test = pd.DataFrame({'Returns': [0.003,0.005,0.02,0.01,0.1,0.9,-0.2,-0.13,-0.14,-0.03,0,0.001]})
使用時會有結果:
test.value_counts()
Category: number of data
0 3
1 3
2 3
數據的間隔可能不同。
試試qcut
test['cate'] = pd.qcut(test.Returns,3).cat.codes
test['cate'].value_counts()
Out[577]:
0 4
1 4
2 4
Name: cate, dtype: int64
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.