如何按同時包含數字和字符串的列對熊貓數據框進行排序？

Question

我有一個看起來像這樣的數據框

         col0         col1  col2   col4
         1    '1ZE7999'  865545   20    20
         2    'R022428'  865584  297     0
         3    34         865665  296     0 
         4    56         865700  297     0
         5    100        865628  292     5

我想按'col0'對其進行排序，首先是數值，然后是字符串，Excel排序的方式

       col0         col1  col2   col4
  3    34         865665  296     0 
  4    56         865700  297     0
  5    100        865628  292     5
  1    '1ZE7999'  865545   20    20
  2    'R022428'  865584  297     0

我用了

df.sort_values(by='col1', ascending=True)

但這不是這樣排序的，它從 0-9 排序，然后是 az

      col0         col1  col2   col4
 1    '1ZE7999'  865545   20    20
 5    100        865628  292     5
 3    34         865665  296     0 
 4    56         865700  297     0
 2    'R022428'  865584  297     0

Answer 1

pd.to_numeric + sort_values + loc -

df.loc[pd.to_numeric(df.col0, errors='coerce').sort_values().index]

        col0    col1  col2  col4
3         34  865665   296     0
4         56  865700   297     0
5        100  865628   292     5
1  '1ZE7999'  865545    20    20
2  'R022428'  865584   297     0

細節

pd.to_numeric脅迫非整數值，以NaN -

i = pd.to_numeric(df.col0, errors='coerce')
i

1      NaN
2      NaN
3     34.0
4     56.0
5    100.0
Name: col0, dtype: float64

sort_values對列進行排序，忽略NaN。

j = i.sort_values()
j

3     34.0
4     56.0
5    100.0
1      NaN
2      NaN
Name: col0, dtype: float64

觀察索引。 您需要做的就是使用索引來重新索引數據框。 loc或reindex都可以做到。

df.loc[j.index]

        col0    col1  col2  col4
3         34  865665   296     0
4         56  865700   297     0
5        100  865628   292     5
1  '1ZE7999'  865545    20    20
2  'R022428'  865584   297     0

df.reindex(index=j.index)

        col0    col1  col2  col4
3         34  865665   296     0
4         56  865700   297     0
5        100  865628   292     5
1  '1ZE7999'  865545    20    20
2  'R022428'  865584   297     0

如果您需要重置索引，這很容易做到。

df.loc[j.index].reset_index(drop=True)

        col0    col1  col2  col4
0         34  865665   296     0
1         56  865700   297     0
2        100  865628   292     5
3  '1ZE7999'  865545    20    20
4  'R022428'  865584   297     0

Answer 2

通過使用natsort

from natsort import natsorted

df.set_index('col0').reindex(natsorted(df.col0.tolist(), key=lambda y: y.lower())).reset_index()
Out[736]: 
        col0    col1  col2  col4
0         34  865665   296     0
1         56  865700   297     0
2        100  865628   292     5
3  '1ZE7999'  865545    20    20
4  'R022428'  865584   297     0

Answer 3

使用index_humansorted的natsort

import natsort
df = df.iloc[natsort.index_humansorted(df['col0'])]

如何按同時包含數字和字符串的列對熊貓數據框進行排序？

問題描述

3 個解決方案

解決方案1
4 已采納 2017-12-20 20:39:28

解決方案2
2 2017-12-20 20:33:49

解決方案3
0 2021-10-28 10:47:31

如何按同時包含數字和字符串的列對熊貓數據框進行排序？

問題描述

3 個解決方案

解決方案1 4 已采納 2017-12-20 20:39:28

解決方案2 2 2017-12-20 20:33:49

解決方案3 0 2021-10-28 10:47:31

解決方案1
4 已采納 2017-12-20 20:39:28

解決方案2
2 2017-12-20 20:33:49

解決方案3
0 2021-10-28 10:47:31