[英]Scikit Learn K-means Clustering & TfidfVectorizer: How to pass top n terms with highest tf-idf score to k-means
[英]Weighting specific features in TF-IDF feature vectors for k-means clustering and cosine similarity
我有一個TF-IDF特征向量數組。 我想使用兩種方法在數組中找到相似的向量:
使用Scikit Learn,此過程非常簡單。
現在,我想對某些功能進行加權,以便它們比其他功能對結果的影響更大。 例如,我可能想加權TF-IDF向量的前100個元素,以使這些特征比其余特征更能指示相似性。
如何有效地對特征向量中的某些特征進行加權? 對於上面列出的每個相似度算法,對某些特征進行加權的過程是否相同?
據我了解,TFIDF矩陣中的低值表示單詞的重要性較低。 因此,一種方法是降低您考慮的那些列的矩陣中的值。
scikit中的數組是稀疏的,因此對於測試和調試,您可能需要轉換為常規矩陣。 我還使用xlsxwriter概述了應用TFIDF和KMeans ++時實際發生的情況(請參閱https://www.dbc-enterprise-it-consulting.com/text-classifier/) 。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.