繁体   English   中英

加权TF-IDF特征向量中的特定特征以实现k均值聚类和余弦相似性

[英]Weighting specific features in TF-IDF feature vectors for k-means clustering and cosine similarity

我有一个TF-IDF特征向量数组。 我想使用两种方法在数组中找到相似的向量:

  1. 余弦相似度
  2. k均值聚类

使用Scikit Learn,此过程非常简单。

现在,我想对某些功能进行加权,以便它们比其他功能对结果的影响更大。 例如,我可能想加权TF-IDF向量的前100个元素,以使这些特征比其余特征更能指示相似性。

如何有效地对特征向量中的某些特征进行加权? 对于上面列出的每个相似度算法,对某些特征进行加权的过程是否相同?

据我了解,TFIDF矩阵中的低值表示单词的重要性较低。 因此,一种方法是降低您考虑的那些列的矩阵中的值。

scikit中的数组是稀疏的,因此对于测试和调试,您可能需要转换为常规矩阵。 我还使用xlsxwriter概述了应用TFIDF和KMeans ++时实际发生的情况(请参阅https://www.dbc-enterprise-it-consulting.com/text-classifier/)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM