熊猫数据框到邻接矩阵

Question

我有一个形式的熊猫数据框：

index | id    | group
0     | abc   | A
1     | abc   | B
2     | abc   | B
3     | abc   | C
4     | def   | A
5     | def   | B
6     | ghi   | B
7     | ghi   | C

我想将其转换为加权图/邻接矩阵，其中节点是“组”，权重是每个组对共享ID的总和：

权重是每个id的组对组合的计数，因此：

AB = 'abc' indexes (0,1),(0,2) + 'def' indexes (4,5) = 3

AC = 'abc' (0,3) = 1

BC = 'abc' (2,3), (1,3) + 'ghi' (6,7) = 3

结果矩阵为：

    A  |B  |C
A| 0   |3  |1
B| 3   |0  |3
C| 1   |3  |0

目前，我的效率很低，方法是：

f = df.groupby(['id']).agg({'group':pd.Series.nunique}) # to count groups per id
f.loc[f['group']>1] # to get a list of the ids with >1 group

# i then for loop through the id's getting the count of values per pair (takes a long time).

这是第一遍粗暴的黑客方法，我敢肯定必须有一种使用groupby或crosstab的替代方法，但我无法弄清楚。

Answer 1

您可以使用以下内容：

df_merge = df.merge(df, on='id')
results = pd.crosstab(df_merge.group_x, df_merge.group_y)
np.fill_diagonal(results.values, 0)
results

输出：

group_y  A  B  C
group_x         
A        0  3  1
B        3  0  3
C        1  3  0

注意：您的结果与我的结果CB和BC之所以为3而不是2之所以不同，是因为B-abc索引行1和2的记录重复。

Answer 2

也许尝试dot

s=pd.crosstab(df.id,df.group)
s=s.T.dot(s)
s.values[[np.arange(len(s))]*2] = 0
s
Out[15]: 
group  A  B  C
group         
A      0  3  1
B      3  0  3
C      1  3  0

熊猫数据框到邻接矩阵

问题描述

2 个解决方案

解决方案1
3 已采纳 2018-03-22 13:34:40

解决方案2
1 2018-03-22 14:14:02

熊猫数据框到邻接矩阵

问题描述

2 个解决方案

解决方案1 3 已采纳 2018-03-22 13:34:40

解决方案2 1 2018-03-22 14:14:02

解决方案1
3 已采纳 2018-03-22 13:34:40

解决方案2
1 2018-03-22 14:14:02