列表中所有可能对上的Python余弦相似度

Question

我正在慢慢学习Python，并且想知道是否可以提供帮助。 我有一个ips， occeence_id和向量的列表，称为info_list ：

('188.74.64.243', '1', ['0, 1, 1, 0'])
('99.229.98.18',  '1', ['0, 1, 1, 1'])
('86.41.253.102', '1', ['1, 1, 1, 1'])
('188.74.64.243', '2', ['0, 1, 1, 0'])
('99.229.98.18',  '2', ['0, 1, 1, 1'])
('86.41.253.102', '2', ['1, 1, 1, 1'])

我想计算余弦相似度。 我有以下几点：

def cosine_similarity(v1,v2):
    sumxx, sumxy, sumyy = 0, 0, 0
    for i in range(len(v1)):
        x = v1[i]; y = v2[i]
        sumxx += x*x
        sumyy += y*y
        sumxy += x*y
    return sumxy/math.sqrt(sumxx*sumyy)

v1 = [0, 1, 1, 0]
v2 = [1, 1, 1, 1]
print(v1, v2, cosine_similarity(v1,v2))

声明了v1和v2时，这很好用。 我的问题是我陷入了一个小漏洞，似乎无法解决我的问题。 我希望能有所帮助。

我需要遍历info_list，考虑到每对具有相同occurrence_id计算cosine_similarity IPS的。

输出的示例将是这样的列表：

    ('188.74.64.243', '99.229.98.18', '1', ['0, 1, 1, 0'],['0, 1, 1, 1'], 0.82 )
    ('188.74.64.243', '86.41.253.102', '1', ['0, 1, 1, 0'],['1, 1, 1, 1'], 0.70 )
    ('86.41.253.102', '99.229.98.18', '1', ['0, 1, 1, 1'],['1, 1, 1, 1'], 0.87 )

Answer 1

您可以使用Python的groupby和combinations功能如下：

from itertools import groupby, combinations
import math

def cosine_similarity(v1,v2):
    sumxx, sumxy, sumyy = 0, 0, 0
    for i in range(len(v1)):
        x = v1[i]; y = v2[i]
        sumxx += x*x
        sumyy += y*y
        sumxy += x*y
    return sumxy/math.sqrt(sumxx * sumyy)

info_list = [
    ('188.74.64.243', '1', [0, 1, 1, 0]),
    ('99.229.98.18',  '1', [0, 1, 1, 1]),
    ('86.41.253.102', '1', [1, 1, 1, 1]),
    ('188.74.64.243', '2', [0, 1, 1, 0]),
    ('99.229.98.18',  '2', [0, 1, 1, 1]),
    ('86.41.253.102', '2', [1, 1, 1, 1]),
    ]

for k, g in groupby(info_list, key=lambda x: x[1]):
    for x, y in combinations(g, 2):
        print (x[0], y[0], x[1], x[2], y[2], cosine_similarity(x[2], y[2]))
    print

这将显示以下输出：

('188.74.64.243', '99.229.98.18', '1', [0, 1, 1, 0], [0, 1, 1, 1], 0.8164965809277261)
('188.74.64.243', '86.41.253.102', '1', [0, 1, 1, 0], [1, 1, 1, 1], 0.7071067811865475)
('99.229.98.18', '86.41.253.102', '1', [0, 1, 1, 1], [1, 1, 1, 1], 0.8660254037844387)

('188.74.64.243', '99.229.98.18', '2', [0, 1, 1, 0], [0, 1, 1, 1], 0.8164965809277261)
('188.74.64.243', '86.41.253.102', '2', [0, 1, 1, 0], [1, 1, 1, 1], 0.7071067811865475)
('99.229.98.18', '86.41.253.102', '2', [0, 1, 1, 1], [1, 1, 1, 1], 0.8660254037844387)

如果列表未排序，即未将ID分组在一起，则可以替换以下行：

for k, g in groupby(sorted(info_list, key=lambda x: x[1]), key=lambda x: x[1]):

Answer 2

保持数据不变（用字符串表示的向量），可以编写一个函数，该函数接受两个元组，将字符串解压缩为int向量，应用相似性函数，然后重新打包。 然后-通过基本的嵌套循环使用此函数：

import math

def cosine_similarity(v1,v2):
    sumxx, sumxy, sumyy = 0, 0, 0
    for i in range(len(v1)):
        x, y = v1[i],v2[i]
        sumxx += x*x
        sumyy += y*y
        sumxy += x*y
    return sumxy/math.sqrt(sumxx*sumyy)

def c_sim(t1,t2):
    ips1,id1,vlist1 = t1
    ips2,id2,vlist2 = t2
    v1 = [int(i) for i in vlist1[0].split(',')]
    v2 = [int(i) for i in vlist2[0].split(',')]
    if id1 == id2:
        return ips1,ips2,id1,vlist1,vlist2,cosine_similarity(v1,v2)

def process_list(data_list):
    n = len(data_list)
    ret_list = []
    for i in range(n-1):
        for j in range(i+1,n):
            t1,t2 = data_list[i],data_list[j]
            t = c_sim(t1,t2)
            if t: ret_list.append(t)
    return ret_list

data = [('188.74.64.243', '1', ['0, 1, 1, 0']),
('99.229.98.18',  '1', ['0, 1, 1, 1']),
('86.41.253.102', '1', ['1, 1, 1, 1']),
('188.74.64.243', '2', ['0, 1, 1, 0']),
('99.229.98.18',  '2', ['0, 1, 1, 1']),
('86.41.253.102', '2', ['1, 1, 1, 1'])]

for t in process_list(data): print(t)

输出：

('188.74.64.243', '99.229.98.18', '1', ['0, 1, 1, 0'], ['0, 1, 1, 1'], 0.8164965809277261)
('188.74.64.243', '86.41.253.102', '1', ['0, 1, 1, 0'], ['1, 1, 1, 1'], 0.7071067811865475)
('99.229.98.18', '86.41.253.102', '1', ['0, 1, 1, 1'], ['1, 1, 1, 1'], 0.8660254037844387)
('188.74.64.243', '99.229.98.18', '2', ['0, 1, 1, 0'], ['0, 1, 1, 1'], 0.8164965809277261)
('188.74.64.243', '86.41.253.102', '2', ['0, 1, 1, 0'], ['1, 1, 1, 1'], 0.7071067811865475)
('99.229.98.18', '86.41.253.102', '2', ['0, 1, 1, 1'], ['1, 1, 1, 1'], 0.8660254037844387)

列表中所有可能对上的Python余弦相似度

问题描述

2 个解决方案

解决方案1
3 已采纳 2015-11-23 16:46:13

解决方案2
0 2015-11-23 17:05:34

列表中所有可能对上的Python余弦相似度

问题描述

2 个解决方案

解决方案1 3 已采纳 2015-11-23 16:46:13

解决方案2 0 2015-11-23 17:05:34

解决方案1
3 已采纳 2015-11-23 16:46:13

解决方案2
0 2015-11-23 17:05:34