如何根據另一個可能按隨機順序排列的 dataframe 的列名對 pandas dataframe 進行子集化？

Question

我想通過common dataframe 的列名對raw_clin dataframe 的行名進行子集化。

common dataframe 示例

common = pd.DataFrame([["PPP1R15A", -0.5880, 1.3980, -0.9402, -0.3741], ["AVPR1A", 1.5472, -0.8588, -0.1703, -0.5198], ["RGR", -0.3225, 0.8372, 0.2006, -0.0271]], columns=['Hugo_Symbol', 'TCGA-02-0010-01', 'TCGA-41-2571-01', 'TCGA-14-1821-01', 'TCGA-32-2632-01'])

raw_clin dataframe 示例

raw_clin = pd.DataFrame([["TCGA-02-0010-01", "I", "want", "to", "subset"], ["TCGA-14-1821-01", "clin_var", "rownames", "by", "common"], ["TCGA-41-2571-01", "colnames", "where", "the", "latter"], ["TCGA-32-2632-01", "may", "be", "random", "order"]], columns=['PATIENT_ID', 'Something1', 'something2', 'something3', 'something4'])

需要 output

raw_clin = pd.DataFrame([["TCGA-02-0010-01", "I", "want", "to", "subset"], ["TCGA-41-2571-01", "colnames", "where", "the", "latter"], ["TCGA-14-1821-01", "clin_var", "rownames", "by", "common"], ["TCGA-32-2632-01", "may", "be", "random", "order"]], columns=['PATIENT_ID', 'Something1', 'something2', 'something3', 'something4'])

我的嘗試沒有匹配：

raw_clin = raw_clin[raw_clin.index.isin(common.columns)]

Answer 1

如果我理解正確，你提到的行名是索引，那么你需要為 dataframe 使用set_index 。

然后您的代碼將使用raw_clin = raw_clin[raw_clin.index.isin(common.columns)]創建您想要的 output。

raw_clin = pd.DataFrame([["TCGA-02-0010-01", "I", "want", "to", "subset"], ["TCGA-14-1821-01", "clin_var", "rownames", "by", "common"], ["TCGA-41-2571-01", "colnames", "where", "the", "latter"], ["TCGA-32-2632-01", "may", "be", "random", "order"]], columns=['PATIENT_ID', 'Something1', 'something2', 'something3', 'something4']).set_index('PATIENT_ID')

如何根據另一個可能按隨機順序排列的 dataframe 的列名對 pandas dataframe 進行子集化？

問題描述

1 個解決方案

解決方案1
0 2022-05-04 17:41:09

如何根據另一個可能按隨機順序排列的 dataframe 的列名對 pandas dataframe 進行子集化？

問題描述

1 個解決方案

解決方案1 0 2022-05-04 17:41:09

解決方案1
0 2022-05-04 17:41:09