[英]How to groupby for one column and then sort_values for another column in a pandas dataframe?
我有一個熊貓數據框,看起來像:
SampleID expr Gene Period tag
4 HSB103 7.214731 ENSG00000198615 5 HSB103|ENSG00000198615
2 HSB103 4.214731 ENSG00000198725 4 HSB103|ENSG00000198725
5 HSB100 3.214731 ENSG00000198615 4 HSB100|ENSG00000198615
1 HSB106 2.200031 ENSG00000198780 5 HSB106|ENSG00000198780
0 HSB103 1.214731 ENSG00000198780 4 HSB103|ENSG00000198780
3 HSB103 0.214731 ENSG00000198615 4 HSB103|ENSG00000198615
我想要做的是按Gene
分組,然后按降序對expr
進行排序,使其看起來像:
SampleID expr Gene Period tag
0 HSB103 7.214731 ENSG00000198615 5 HSB103|ENSG00000198615
1 HSB100 3.214731 ENSG00000198615 4 HSB100|ENSG00000198615
2 HSB103 0.214731 ENSG00000198615 4 HSB103|ENSG00000198615
3 HSB103 4.214731 ENSG00000198725 4 HSB103|ENSG00000198725
4 HSB106 2.200031 ENSG00000198780 5 HSB106|ENSG00000198780
5 HSB103 1.214731 ENSG00000198780 4 HSB103|ENSG00000198780
我已經嘗試了以下方法,但是它們都不起作用:
嘗試1:
p4p5.sort_values(by=['expr'], ascending=[False], inplace=True).groupby(['Gene'])
嘗試2:
p4p5.groupby(['Gene'])
p4p5.sort_values(by=['expr'], ascending=[False], inplace=True)
更新至問題 :
進行分組和排序后,如何過濾數據框,以使每個基因組的表達僅保留最低的10%? 當我說bottom 10%
,我的意思是從理論分布上講,不是每個基因有100行,而是經過過濾后得到10行。 我想那會是這樣的:
p4p5.sort_values(by=['Gene','expr'], ascending=[True,False], inplace=True).quantile([0.1])
您不需要在這里使用groupby
,只需按兩列分別進行sort_values
:
p4p5.sort_values(by=['Gene','expr'], ascending=[True,False], inplace=True)
編輯:對於更新的問題,您可以使用groupby
和tail
如:
p4p5_bottom10 = (p4p5.sort_values(by='expr', ascending=False).groupby('Gene')
.apply(lambda df_g: df_g.tail(int(len(df_g)*0.1))))
您也可以在.reset_index(drop=True)
添加.reset_index(drop=True)
第2次編輯:希望這次我了解得很好,您可以這樣做:
#first sort
p4p5= p4p5.sort_values(['Gene','expr'], ascending=[True,False]).reset_index(drop=True)
# select the part of the data under quantile 10% (reset_index not mandatory)
p4p5_bottom10 = (p4p5[p4p5.groupby('Gene')['expr'].apply(lambda x: x < x.quantile(0.1))]
.reset_index(drop=True))
簡單的解決方案是:
>>> df.sort_values(['Gene','expr'],ascending=[True,False]).groupby('Gene').tail(3)
SampleID expr Gene Period tag
0 HSB103 7.214731 ENSG00000198615 5 HSB103|ENSG00000198615
2 HSB100 3.214731 ENSG00000198615 4 HSB100|ENSG00000198615
5 HSB103 1.214731 ENSG00000198615 4 HSB103|ENSG00000198615
1 HSB103 4.214731 ENSG00000198725 4 HSB103|ENSG00000198725
3 HSB106 2.200031 ENSG00000198780 5 HSB106|ENSG00000198780
4 HSB103 1.214731 ENSG00000198780 4 HSB103|ENSG00000198780
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.