[英]Spark Python: How to calculate Jaccard Similarity between each line within an RDD?
[英]How to calculate the jaccard similarity
我想使用python計算網絡的jaccard相似度。 我知道jaccard相似度的算法是相交的長度除以並集的長度。 但是我無法區分這兩種方式:
第一種方式:
import networkx as nx
A=nx.complete_graph(5)
B=nx.complete_graph(8)
jaccard=len(set(A.nodes())&set(B.nodes()))/len(set(A.nodes())|set(B.nodes()))
第二種方式:
import networkx as nx
A=nx.complete_graph(5)
B=nx.complete_graph(8)
jaccard=len(set(A.edges())&set(B.edges()))/len(set(A.edges())|set(B.edges()))
我可以選擇哪種方式? 謝謝!
Jaccard相似度是為集合而非圖定義的度量。 您可以基於對圖進行操作的Jaccard相似度創建一個度量標准,但是Jaccard相似度並不直接適用於圖。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.