[英]What is the best way to compute a similarity matrix for a dataframe of binary vectors?
我有一個大小為 mxn 的二進制向量的數據框,其中包含一些未填充的值,如下例所示
col1 col2 col3 col4 col5
V0 1 0 1
V1 1 1 0
V2 0 1 0 1
V3 0 0
我想在這個數據框上計算一個相似度矩陣,這樣我就可以得到任意 2 個向量之間的相似度分數。
做這個的最好方式是什么?
注意:我嘗試用 2 替換 NULL 值,並從數據幀上的 scipy 庫中應用余弦相似度。 結果矩陣不准確/正確。
您可能希望將pdist或cdist與二元距離函數(例如骰子、jaccard 或 hamming)一起使用(請參閱本頁末尾的這些函數列表)。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.