[英]pandas dataframe to adjacency matrix
我有一个形式的熊猫数据框:
index | id | group
0 | abc | A
1 | abc | B
2 | abc | B
3 | abc | C
4 | def | A
5 | def | B
6 | ghi | B
7 | ghi | C
我想将其转换为加权图/邻接矩阵,其中节点是“组”,权重是每个组对共享ID的总和:
权重是每个id的组对组合的计数,因此:
AB = 'abc' indexes (0,1),(0,2) + 'def' indexes (4,5) = 3
AC = 'abc' (0,3) = 1
BC = 'abc' (2,3), (1,3) + 'ghi' (6,7) = 3
结果矩阵为:
A |B |C
A| 0 |3 |1
B| 3 |0 |3
C| 1 |3 |0
目前,我的效率很低,方法是:
f = df.groupby(['id']).agg({'group':pd.Series.nunique}) # to count groups per id
f.loc[f['group']>1] # to get a list of the ids with >1 group
# i then for loop through the id's getting the count of values per pair (takes a long time).
这是第一遍粗暴的黑客方法,我敢肯定必须有一种使用groupby或crosstab的替代方法,但我无法弄清楚。
您可以使用以下内容:
df_merge = df.merge(df, on='id')
results = pd.crosstab(df_merge.group_x, df_merge.group_y)
np.fill_diagonal(results.values, 0)
results
输出:
group_y A B C
group_x
A 0 3 1
B 3 0 3
C 1 3 0
注意:您的结果与我的结果CB和BC之所以为3而不是2之所以不同,是因为B-abc索引行1和2的记录重复。
也许尝试dot
s=pd.crosstab(df.id,df.group)
s=s.T.dot(s)
s.values[[np.arange(len(s))]*2] = 0
s
Out[15]:
group A B C
group
A 0 3 1
B 3 0 3
C 1 3 0
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.