如何對熊貓數據框中的一列進行分組，然后對另一列進行sort_values排序？

Question

我有一個熊貓數據框，看起來像：

  SampleID      expr             Gene  Period                     tag
4   HSB103  7.214731  ENSG00000198615       5  HSB103|ENSG00000198615
2   HSB103  4.214731  ENSG00000198725       4  HSB103|ENSG00000198725
5   HSB100  3.214731  ENSG00000198615       4  HSB100|ENSG00000198615
1   HSB106  2.200031  ENSG00000198780       5  HSB106|ENSG00000198780
0   HSB103  1.214731  ENSG00000198780       4  HSB103|ENSG00000198780
3   HSB103  0.214731  ENSG00000198615       4  HSB103|ENSG00000198615

我想要做的是按Gene分組，然后按降序對expr進行排序，使其看起來像：

  SampleID      expr             Gene  Period                     tag
0   HSB103  7.214731  ENSG00000198615       5  HSB103|ENSG00000198615
1   HSB100  3.214731  ENSG00000198615       4  HSB100|ENSG00000198615
2   HSB103  0.214731  ENSG00000198615       4  HSB103|ENSG00000198615
3   HSB103  4.214731  ENSG00000198725       4  HSB103|ENSG00000198725
4   HSB106  2.200031  ENSG00000198780       5  HSB106|ENSG00000198780
5   HSB103  1.214731  ENSG00000198780       4  HSB103|ENSG00000198780

我已經嘗試了以下方法，但是它們都不起作用：

嘗試1：

p4p5.sort_values(by=['expr'], ascending=[False], inplace=True).groupby(['Gene'])

嘗試2：

p4p5.groupby(['Gene'])
p4p5.sort_values(by=['expr'], ascending=[False], inplace=True)

更新至問題 ：

進行分組和排序后，如何過濾數據框，以使每個基因組的表達僅保留最低的10％？ 當我說bottom 10% ，我的意思是從理論分布上講，不是每個基因有100行，而是經過過濾后得到10行。 我想那會是這樣的：

p4p5.sort_values(by=['Gene','expr'], ascending=[True,False], inplace=True).quantile([0.1])

Answer 1

您不需要在這里使用groupby ，只需按兩列分別進行sort_values ：

p4p5.sort_values(by=['Gene','expr'], ascending=[True,False], inplace=True)

編輯：對於更新的問題，您可以使用groupby和tail如：

p4p5_bottom10 = (p4p5.sort_values(by='expr', ascending=False).groupby('Gene')
                     .apply(lambda df_g: df_g.tail(int(len(df_g)*0.1))))

您也可以在.reset_index(drop=True)添加.reset_index(drop=True)

第2次編輯：希望這次我了解得很好，您可以這樣做：

#first sort 
p4p5= p4p5.sort_values(['Gene','expr'], ascending=[True,False]).reset_index(drop=True)
# select the part of the data under quantile 10% (reset_index not mandatory)
p4p5_bottom10  = (p4p5[p4p5.groupby('Gene')['expr'].apply(lambda x: x < x.quantile(0.1))]
                       .reset_index(drop=True))

Answer 2

簡單的解決方案是：

>>> df.sort_values(['Gene','expr'],ascending=[True,False]).groupby('Gene').tail(3)
  SampleID      expr             Gene  Period                     tag
0   HSB103  7.214731  ENSG00000198615       5  HSB103|ENSG00000198615
2   HSB100  3.214731  ENSG00000198615       4  HSB100|ENSG00000198615
5   HSB103  1.214731  ENSG00000198615       4  HSB103|ENSG00000198615
1   HSB103  4.214731  ENSG00000198725       4  HSB103|ENSG00000198725
3   HSB106  2.200031  ENSG00000198780       5  HSB106|ENSG00000198780
4   HSB103  1.214731  ENSG00000198780       4  HSB103|ENSG00000198780

如何對熊貓數據框中的一列進行分組，然后對另一列進行sort_values排序？

問題描述

2 個解決方案

解決方案1
4 2018-11-06 18:04:07

解決方案2
0 2018-11-06 18:05:52

如何對熊貓數據框中的一列進行分組，然后對另一列進行sort_values排序？

問題描述

2 個解決方案

解決方案1 4 2018-11-06 18:04:07

解決方案2 0 2018-11-06 18:05:52

解決方案1
4 2018-11-06 18:04:07

解決方案2
0 2018-11-06 18:05:52