簡體   English   中英

加權TF-IDF特征向量中的特定特征以實現k均值聚類和余弦相似性

[英]Weighting specific features in TF-IDF feature vectors for k-means clustering and cosine similarity

我有一個TF-IDF特征向量數組。 我想使用兩種方法在數組中找到相似的向量:

  1. 余弦相似度
  2. k均值聚類

使用Scikit Learn,此過程非常簡單。

現在,我想對某些功能進行加權,以便它們比其他功能對結果的影響更大。 例如,我可能想加權TF-IDF向量的前100個元素,以使這些特征比其余特征更能指示相似性。

如何有效地對特征向量中的某些特征進行加權? 對於上面列出的每個相似度算法,對某些特征進行加權的過程是否相同?

據我了解,TFIDF矩陣中的低值表示單詞的重要性較低。 因此,一種方法是降低您考慮的那些列的矩陣中的值。

scikit中的數組是稀疏的,因此對於測試和調試,您可能需要轉換為常規矩陣。 我還使用xlsxwriter概述了應用TFIDF和KMeans ++時實際發生的情況(請參閱https://www.dbc-enterprise-it-consulting.com/text-classifier/)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM