![](/img/trans.png)
[英]Scikit Learn K-means Clustering & TfidfVectorizer: How to pass top n terms with highest tf-idf score to k-means
[英]Weighting specific features in TF-IDF feature vectors for k-means clustering and cosine similarity
我有一个TF-IDF特征向量数组。 我想使用两种方法在数组中找到相似的向量:
使用Scikit Learn,此过程非常简单。
现在,我想对某些功能进行加权,以便它们比其他功能对结果的影响更大。 例如,我可能想加权TF-IDF向量的前100个元素,以使这些特征比其余特征更能指示相似性。
如何有效地对特征向量中的某些特征进行加权? 对于上面列出的每个相似度算法,对某些特征进行加权的过程是否相同?
据我了解,TFIDF矩阵中的低值表示单词的重要性较低。 因此,一种方法是降低您考虑的那些列的矩阵中的值。
scikit中的数组是稀疏的,因此对于测试和调试,您可能需要转换为常规矩阵。 我还使用xlsxwriter概述了应用TFIDF和KMeans ++时实际发生的情况(请参阅https://www.dbc-enterprise-it-consulting.com/text-classifier/) 。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.