簡體   English   中英

計算二進制向量數據幀的相似度矩陣的最佳方法是什么?

[英]What is the best way to compute a similarity matrix for a dataframe of binary vectors?

我有一個大小為 mxn 的二進制向量的數據框,其中包含一些未填充的值,如下例所示

col1 col2 col3 col4 col5
 V0    1         0    1
 V1    1    1         0
 V2    0    1    0    1
 V3         0    0

我想在這個數據框上計算一個相似度矩陣,這樣我就可以得到任意 2 個向量之間的相似度分數。

做這個的最好方式是什么?

注意:我嘗試用 2 替換 NULL 值,並從數據幀上的 scipy 庫中應用余弦相似度。 結果矩陣不准確/正確。

您可能希望將pdistcdist與二元距離函數(例如骰子、jaccard 或 hamming)一起使用(請參閱本頁末尾的這些函數列表)。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM