繁体   English   中英

如何从第一列开始依次对DataFrame列进行排序?

[英]How to sort DataFrame columns sequently from the first column?

我按行的最大值对df列进行了排序。

dff = centroids.reindex(df.sum().sort_values(ascending=False).index, axis=1)

print(dff)

    13        9         2         6         7         0         5
0   0.423586  0.472548  0.366301  0.423973  0.312807  0.476197  0.384652   
1   0.639636  0.734712  0.503772  0.600164  0.416451  0.730942  0.515370
2   0.749716  0.835071  0.549806  0.637331  0.419558  0.782306  0.507648
3   0.817579  0.844361  0.577874  0.621483  0.408825  0.727671  0.458346   
4   0.890916  0.831640  0.631127  0.611741  0.438974  0.654338  0.430330
5   0.952046  0.802077  0.694321  0.601616  0.496798  0.572743  0.423915
6   0.995009  0.768293  0.749186  0.590912  0.553378  0.500568  0.427607   
7   1.000000  0.718386  0.781207  0.570253  0.598234  0.425387  0.436355   
8   0.993004  0.690660  0.779607  0.550149  0.600459  0.396121  0.422891   

现在,我需要按彼此之间的相关性对这些列进行排序,但是要依次执行。 因此,通过与第一者的最佳相关性定义第二列,通过与第二者的最佳相关性定义第三列,依此类推。 我也想保存列的原始标签

我对此有一些想法,但是因为我是python代码的新手,所以无法正常工作

k_num = 7 # number of columns in df
def corelation(df):
   col = 1
   for column in dff.columns[col:]:
       dff.reindex(dff.corr().sort_values(dff.columns[col], ascending=False).index, axis = 1)
   col += 1
   if col == k_num:
      return(df)

如果有人帮助我将不胜感激

我们可以创建一个列表,其中包含所需的列顺序。 我们将其命名为l并首先在第一列中填充0 然后,我们迭代地找到存储为l最后一个元素的列与不包含l中已经存在的列的DataFrame子集之间的最大相关性,并在每个步骤上向列表l添加具有最大相关性的新列。 当没有剩余的列时, l将保留列的所需顺序,而df[l]将为我们提供具有按最大相关性排序的列的DataFrame:

np.random.seed(42)
df = pd.DataFrame(np.random.randn(10, 10))

l = [0]
while len(l) < len(df.columns):
    i = df[df.columns.difference(l)].corrwith(df[l[-1]]).abs().idxmax()
    l += [i]

df[l]

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM