繁体 English 中英

加权TF-IDF特征向量中的特定特征以实现k均值聚类和余弦相似性

[英]Weighting specific features in TF-IDF feature vectors for k-means clustering and cosine similarity

原文 2015-09-22 14:17:06 6 1 python/ machine-learning/ scikit-learn/ k-means/ tf-idf

我有一个TF-IDF特征向量数组。 我想使用两种方法在数组中找到相似的向量：

余弦相似度
k均值聚类

使用Scikit Learn，此过程非常简单。

现在，我想对某些功能进行加权，以便它们比其他功能对结果的影响更大。 例如，我可能想加权TF-IDF向量的前100个元素，以使这些特征比其余特征更能指示相似性。

如何有效地对特征向量中的某些特征进行加权？ 对于上面列出的每个相似度算法，对某些特征进行加权的过程是否相同？

1 个解决方案

据我了解，TFIDF矩阵中的低值表示单词的重要性较低。 因此，一种方法是降低您考虑的那些列的矩阵中的值。

scikit中的数组是稀疏的，因此对于测试和调试，您可能需要转换为常规矩阵。 我还使用xlsxwriter概述了应用TFIDF和KMeans ++时实际发生的情况（请参阅https://www.dbc-enterprise-it-consulting.com/text-classifier/）。

Scikit学习K-means聚类和TfidfVectorizer：如何将tf-idf得分最高的前n个术语传递给k-means

[英]Scikit Learn K-means Clustering & TfidfVectorizer: How to pass top n terms with highest tf-idf score to k-means

使用Apache Spark中的K-means进行tf-idf文档聚类，将点放入一个聚类

[英]tf-idf document clustering with K-means in Apache Spark putting points into one cluster

无需tf-idf预处理就可以对文本数据进行K-均值聚类

[英]K-means clustering on text data without tf-idf preprocessing

使用 TF-IDF 的 K-Means 中的 Plot 质心

[英]Plot centroids in K-Means using TF-IDF

Scipy，TF-IDF和余弦相似度

[英]Scipy, tf-idf and cosine similarity

使用具有余弦相似度的 K 均值 - Python

[英]Using K-means with cosine similarity - Python

归一化基于tf-idf计算的余弦相似度值

[英]Normalize cosine similarity values calculated based on tf-idf

TF-IDF 和余弦相似度的模糊匹配不够准确

[英]Fuzzy matching not accurate enough with TF-IDF and cosine similarity

使用 TF-IDF 和余弦相似度匹配短语

[英]Matching phrase using TF-IDF and cosine similarity

在 Python 中使用 TF-IDF、NGrams 和 Cosine Similarity 进行字符串匹配

[英]String Matching Using TF-IDF, NGrams and Cosine Similarity in Python

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Scikit学习K-means聚类和TfidfVectorizer：如何将tf-idf得分最高的前n个术语传递给k-means 使用Apache Spark中的K-means进行tf-idf文档聚类，将点放入一个聚类无需tf-idf预处理就可以对文本数据进行K-均值聚类使用 TF-IDF 的 K-Means 中的 Plot 质心 Scipy，TF-IDF和余弦相似度使用具有余弦相似度的 K 均值 - Python 归一化基于tf-idf计算的余弦相似度值 TF-IDF 和余弦相似度的模糊匹配不够准确使用 TF-IDF 和余弦相似度匹配短语在 Python 中使用 TF-IDF、NGrams 和 Cosine Similarity 进行字符串匹配

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM