使用TF-IDF比較語料庫中的文檔對-Python

Question

我設法使用以下代碼來計算TF-IDF和矩陣：

from sklearn.feature_extraction.text import TfidfVectorizer

#define vectorizer parameters
tfidf_vectorizer = TfidfVectorizer(max_df=0.8, max_features=200000,
                             min_df=0.2, stop_words='english',
                             use_idf=True, ngram_range=(1,3))

tfidf_matrix = tfidf_vectorizer.fit_transform(paragraphs) #fit the vectorizer to paragraphs

但是，我現在想比較不同段落的相似性，我的最終結果應如下所示：

Pair# | Paragraph1 | Paragraph2 | Similarity score

1 --------xyz --------xyz --------- 30.2%

2 --------xyz --------xyz --------- 22.3%

3  --------xyz --------xyz --------- 4.3%

如何使用TF-IDF矩陣比較不同的段落對？

Answer 1

假設paragraphs參數中的每個段落都是一個字符串，那么tfidf_matrix每一行都是代表該字符串的數字矢量。 度量向量（尤其是tf-idf權重向量）之間的相似性的通用度量是余弦相似度。 scikit-learn cosine_similarity方法是一種有用的實現，該方法接受矩陣作為輸入。

因此，大概可以做到：

from sklearn.metrics.pairwise import cosine_similarity
cosine_sim_matrix = cosine_similarity(tfidf_matrix, tfidf_matrix)

每個單元格i, j將是第i和j段之間的相似度得分。

使用TF-IDF比較語料庫中的文檔對-Python

問題描述

1 個解決方案

解決方案1
0 2018-05-29 00:52:13

使用TF-IDF比較語料庫中的文檔對-Python

問題描述

1 個解決方案

解決方案1 0 2018-05-29 00:52:13

解決方案1
0 2018-05-29 00:52:13