如何计算 pandas dataframe 中行组合之间的欧氏距离

Question

我有以下 dataframe：

import pandas as pd
foo = pd.DataFrame({'cluster': [1,2,3],
                   'var1': [0.3,0.5,1],
                   'var2': [0.6,0.2,0.7],
                   'var3': [0.4,0.4,0.3]})

每行对应一个集群， var的值对应于特定var的集群中心

我想计算每个簇到 rest 的欧几里得euclidian distance 。

我试过这个

from itertools import combinations
def distance(list1, list2):
    """Distance between two vectors."""
    squares = [(p - q) ** 2 for p, q in zip(list1, list2)]
    return sum(squares) ** .5

foo_m = foo.melt(id_vars='cluster')
for k, v in list(combinations(foo_m.cluster.unique(),2)):
     print(k,v)
     print(distance(list(foo_m.query('cluster == @k')['value']), 
         list(foo_m.query('cluster == @v')['value'])))

我想要 output 在类似相关矩阵的 dataframe 中得到结果，其中行和列将是cluster s，值将是各个cluster s 之间的距离，有什么想法吗？

预期的 output 是一个对称矩阵，如下所示：

pd.DataFrame({'cluster': [1,2,3], 'cluster_1':[0,0.447213, 0.71414],
'cluster_2': [0.447213, 0, 0.714142], 'cluster_3':[0.71414, 0.714142, 0]})

Answer 1

试试scipy ：

from scipy.spatial.distance import pdist, squareform
output = pd.DataFrame(squareform(pdist(foo.set_index("cluster"))), 
                      index=foo["cluster"].values, 
                      columns=foo["cluster"].values)

>>> output
          1         2         3
1  0.000000  0.447214  0.714143
2  0.447214  0.000000  0.714143
3  0.714143  0.714143  0.000000

如何计算 pandas dataframe 中行组合之间的欧氏距离

问题描述

1 个解决方案

解决方案1
2 已采纳 2022-02-14 16:15:04

如何计算 pandas dataframe 中行组合之间的欧氏距离

问题描述

1 个解决方案

解决方案1 2 已采纳 2022-02-14 16:15:04

解决方案1
2 已采纳 2022-02-14 16:15:04