按特定顺序从 pandas dataframe 获取值

Question

按照 mylist 的顺序从下面的 dataframe 创建标签列表的最有效方法是什么？

import numpy as np
import pandas as pd    

mylist = ['a1.jpeg','a2.jpeg','b1.jpeg','b2.jpeg','c1.jpeg','c2.jpeg']
    
dat = np.array([(1, 2, 1, 1, 2, 2), ('a2jpeg', 'a1jpeg', 'c2jpeg', 'b2jpeg', 'b1jpeg' , 'c1jpeg')])
df = pd.DataFrame(np.transpose(dat), columns=['labels', 'filenames'])
df
>>labels    filenames
0   1   a2.jpeg
1   2   a1.jpeg
2   1   c2.jpeg
3   1   b2.jpeg
4   2   b1.jpeg
5   2   c1.jpeg

Answer 1

只需使用sort_values ：

>>> df.sort_values('filenames')
  labels filenames
1      2    a1jpeg
0      1    a2jpeg
4      2    b1jpeg
3      1    b2jpeg
5      2    c1jpeg
2      1    c2jpeg
>>>

要转换为列表：

>>> df['filenames'].sort_values().tolist()
['a1jpeg', 'a2jpeg', 'b1jpeg', 'b2jpeg', 'c1jpeg', 'c2jpeg']
>>>

Answer 2

首先使用Series.replace ，然后通过DataFrame.set_index和Series.reindex更改顺序：

L = (df.assign(filenames = df['filenames'].replace('jpeg','.jpeg', regex=True))
       .set_index('filenames')['labels']
       .reindex(mylist)
       .tolist())
print (L)
['2', '1', '2', '1', '2', '1']

或者：

df['filenames'] = pd.Categorical(df['filenames'].replace('jpeg','.jpeg', regex=True), 
                                 ordered=True, 
                                 categories=mylist)

L = df.sort_values(by='filenames')['labels'].tolist()
print (L)
['2', '1', '2', '1', '2', '1']

如果可能，通过在DataFrame.sort_values中排序来简化解决方案：

L = df.sort_values(by='filenames')['labels'].tolist()
print (L)
['2', '1', '2', '1', '2', '1']

按特定顺序从 pandas dataframe 获取值

问题描述

2 个解决方案

解决方案1
2 2021-10-11 06:03:30

解决方案2
2 2021-10-11 06:06:38

按特定顺序从 pandas dataframe 获取值

问题描述

2 个解决方案

解决方案1 2 2021-10-11 06:03:30

解决方案2 2 2021-10-11 06:06:38

解决方案1
2 2021-10-11 06:03:30

解决方案2
2 2021-10-11 06:06:38