[英]Compare document pairs within corpus using TF-IDF - Python
我設法使用以下代碼來計算TF-IDF和矩陣:
from sklearn.feature_extraction.text import TfidfVectorizer
#define vectorizer parameters
tfidf_vectorizer = TfidfVectorizer(max_df=0.8, max_features=200000,
min_df=0.2, stop_words='english',
use_idf=True, ngram_range=(1,3))
tfidf_matrix = tfidf_vectorizer.fit_transform(paragraphs) #fit the vectorizer to paragraphs
但是,我現在想比較不同段落的相似性,我的最終結果應如下所示:
Pair# | Paragraph1 | Paragraph2 | Similarity score
1 --------xyz --------xyz --------- 30.2%
2 --------xyz --------xyz --------- 22.3%
3 --------xyz --------xyz --------- 4.3%
如何使用TF-IDF
矩陣比較不同的段落對?
假設paragraphs
參數中的每個段落都是一個字符串,那么tfidf_matrix
每一行都是代表該字符串的數字矢量。 度量向量(尤其是tf-idf權重向量)之間的相似性的通用度量是余弦相似度 。 scikit-learn cosine_similarity方法是一種有用的實現,該方法接受矩陣作為輸入。
因此,大概可以做到:
from sklearn.metrics.pairwise import cosine_similarity
cosine_sim_matrix = cosine_similarity(tfidf_matrix, tfidf_matrix)
每個單元格i, j
將是第i
和j
段之間的相似度得分。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.