按分位數對熊貓數據框進行排名

Question

我有一個Pandas數據框，其中每一列代表一個單獨的屬性，並且每一行在特定日期保存屬性的值：

import pandas as pd

dfstr = \
'''         AC        BO         C       CCM        CL       CRD        CT        DA        GC        GF
2010-01-19  0.844135 -0.194530 -0.231046  0.245615 -0.581238 -0.593562  0.057288  0.655903  0.823997  0.221920
2010-01-20 -0.204845 -0.225876  0.835611 -0.594950 -0.607364  0.042603  0.639168  0.816524  0.210653  0.237833
2010-01-21  0.824852 -0.216449 -0.220136  0.234343 -0.611756 -0.624060  0.028295  0.622516  0.811741  0.201083'''
df = pd.read_csv(pd.compat.StringIO(dfstr), sep='\s+')

使用rank方法，我可以找到每個屬性相對於特定日期的百分等級：

df.rank(axis=1, pct=True)

輸出：

             AC   BO    C  CCM   CL  CRD   CT   DA   GC   GF
2010-01-19  1.0  0.4  0.3  0.7  0.2  0.1  0.5  0.8  0.9  0.6
2010-01-20  0.4  0.3  1.0  0.2  0.1  0.5  0.8  0.9  0.6  0.7
2010-01-21  1.0  0.4  0.3  0.7  0.2  0.1  0.5  0.8  0.9  0.6

我想得到的是每個屬性的分位數（例如四分位數，五分位數，十分位數等）排名。 例如，對於五等分等級，我希望的輸出為：

             AC   BO    C  CCM   CL  CRD   CT   DA   GC   GF
2010-01-19   5    2     2  4     1   1     3    4    5    3
2010-01-20   2    2     5  1     1   3     4    5    3    4
2010-01-21   5    2     2  4     1   1     3    4    5    3

我可能會丟失一些東西，但是似乎沒有內置的方法可以對熊貓進行這種分位數排名。 獲得所需輸出的最簡單方法是什么？

Answer 1

方法1 `mul` ＆ `np.ceil`

您與排名相當接近。 只需將.mul乘以5即可得到所需的分位數，也將其與np.ceil取整：

np.ceil(df.rank(axis=1, pct=True).mul(5))

Output

             AC   BO    C  CCM   CL  CRD   CT   DA   GC   GF
2010-01-19  5.0  2.0  2.0  4.0  1.0  1.0  3.0  4.0  5.0  3.0
2010-01-20  2.0  2.0  5.0  1.0  1.0  3.0  4.0  5.0  3.0  4.0
2010-01-21  5.0  2.0  2.0  4.0  1.0  1.0  3.0  4.0  5.0  3.0

如果要使用整數，請使用astype ：

np.ceil(df.rank(axis=1, pct=True).mul(5)).astype(int)

甚至更好從熊貓版本0.24.0開始，我們有了可為空的整數類型： Int64 。
因此我們可以使用：

np.ceil(df.rank(axis=1, pct=True).mul(5)).astype('Int64')

Output

            AC  BO  C  CCM  CL  CRD  CT  DA  GC  GF
2010-01-19   5   2  2    4   1    1   3   4   5   3
2010-01-20   2   2  5    1   1    3   4   5   3   4
2010-01-21   5   2  2    4   1    1   3   4   5   3

方法2 `scipy.stats.percentileofscore`

d = df.apply(lambda x: [np.ceil(stats.percentileofscore(x, a, 'rank')*0.05) for a in x], axis=1).values

pd.DataFrame(data=np.concatenate(d).reshape(d.shape[0], len(d[0])), 
             columns=df.columns, 
             dtype='int', 
             index=df.index)

Output

            AC  BO  C  CCM  CL  CRD  CT  DA  GC  GF
2010-01-19   5   2  2    4   1    1   3   4   5   3
2010-01-20   2   2  5    1   1    3   4   5   3   4
2010-01-21   5   2  2    4   1    1   3   4   5   3

按分位數對熊貓數據框進行排名

問題描述

1 個解決方案

解決方案1
3 已采納 2019-05-27 21:45:07

方法1 `mul` ＆ `np.ceil`

方法2 `scipy.stats.percentileofscore`

按分位數對熊貓數據框進行排名

問題描述

1 個解決方案

解決方案1 3 已采納 2019-05-27 21:45:07

方法1 mul ＆ np.ceil

方法2 scipy.stats.percentileofscore

解決方案1
3 已采納 2019-05-27 21:45:07

方法1 `mul` ＆ `np.ceil`

方法2 `scipy.stats.percentileofscore`