簡體 English 中英

加權TF-IDF特征向量中的特定特征以實現k均值聚類和余弦相似性

[英]Weighting specific features in TF-IDF feature vectors for k-means clustering and cosine similarity

原文 2015-09-22 14:17:06 8 1 python/ machine-learning/ scikit-learn/ k-means/ tf-idf

我有一個TF-IDF特征向量數組。 我想使用兩種方法在數組中找到相似的向量：

余弦相似度
k均值聚類

使用Scikit Learn，此過程非常簡單。

現在，我想對某些功能進行加權，以便它們比其他功能對結果的影響更大。 例如，我可能想加權TF-IDF向量的前100個元素，以使這些特征比其余特征更能指示相似性。

如何有效地對特征向量中的某些特征進行加權？ 對於上面列出的每個相似度算法，對某些特征進行加權的過程是否相同？

1 個解決方案

據我了解，TFIDF矩陣中的低值表示單詞的重要性較低。 因此，一種方法是降低您考慮的那些列的矩陣中的值。

scikit中的數組是稀疏的，因此對於測試和調試，您可能需要轉換為常規矩陣。 我還使用xlsxwriter概述了應用TFIDF和KMeans ++時實際發生的情況（請參閱https://www.dbc-enterprise-it-consulting.com/text-classifier/）。

Scikit學習K-means聚類和TfidfVectorizer：如何將tf-idf得分最高的前n個術語傳遞給k-means

[英]Scikit Learn K-means Clustering & TfidfVectorizer: How to pass top n terms with highest tf-idf score to k-means

使用Apache Spark中的K-means進行tf-idf文檔聚類，將點放入一個聚類

[英]tf-idf document clustering with K-means in Apache Spark putting points into one cluster

無需tf-idf預處理就可以對文本數據進行K-均值聚類

[英]K-means clustering on text data without tf-idf preprocessing

使用 TF-IDF 的 K-Means 中的 Plot 質心

[英]Plot centroids in K-Means using TF-IDF

Scipy，TF-IDF和余弦相似度

[英]Scipy, tf-idf and cosine similarity

使用具有余弦相似度的 K 均值 - Python

[英]Using K-means with cosine similarity - Python

歸一化基於tf-idf計算的余弦相似度值

[英]Normalize cosine similarity values calculated based on tf-idf

TF-IDF 和余弦相似度的模糊匹配不夠准確

[英]Fuzzy matching not accurate enough with TF-IDF and cosine similarity

使用 TF-IDF 和余弦相似度匹配短語

[英]Matching phrase using TF-IDF and cosine similarity

在 Python 中使用 TF-IDF、NGrams 和 Cosine Similarity 進行字符串匹配

[英]String Matching Using TF-IDF, NGrams and Cosine Similarity in Python

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 Scikit學習K-means聚類和TfidfVectorizer：如何將tf-idf得分最高的前n個術語傳遞給k-means 使用Apache Spark中的K-means進行tf-idf文檔聚類，將點放入一個聚類無需tf-idf預處理就可以對文本數據進行K-均值聚類使用 TF-IDF 的 K-Means 中的 Plot 質心 Scipy，TF-IDF和余弦相似度使用具有余弦相似度的 K 均值 - Python 歸一化基於tf-idf計算的余弦相似度值 TF-IDF 和余弦相似度的模糊匹配不夠准確使用 TF-IDF 和余弦相似度匹配短語在 Python 中使用 TF-IDF、NGrams 和 Cosine Similarity 進行字符串匹配

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM