简体   繁体   English

选择合适的聚类方法进行潜在语义分析

[英]choose the proper clustering method for Latent Semantic Analysis

i want to cluster some text document to find the document with the same concept. 我想聚集一些文本文档以找到具有相同概念的文档。 i've done the semantic similarity using Latent Semantic Analysis (LSA), but i confuse which clustering method that i should choose for my purpose . 我已经使用潜在语义分析(LSA)进行了语义相似性处理,但是我混淆了应该为我的目的选择哪种聚类方法。 Thank you 谢谢

You can use hierarchical clustering. 您可以使用分层群集。 There is a package in R called RClusterpp which is very efficient for hierarchical clustering of large data (it does a parallel computation). R中有一个名为RClusterpp的软件包,对于大型数据的分层聚类非常有效(它进行并行计算)。 Then you can cut the dendrogram tree for different number of cluster within the possible range and check for cluster profiles using cross-tab. 然后,您可以在可能的范围内为不同数量的群集剪切树状图,并使用交叉表检查群集配置文件。

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM