繁体   English   中英

如何使用TF-IDF或LSA与gensim计算单词相似度?

[英]How to compute word similarity using TF-IDF or LSA with gensim?

我知道gensim中的word2vec可以计算单词之间的相似性。 但现在我想使用TF-IDF或LSA与gensim来计算单词相似度。 怎么做?

注意:使用LSA和gensim计算文档相似性很简单: http ://radimrehurek.com/gensim/wiki.html

TF-IDF是一种加权方案,因此it's not an alternative to LSA.

想象一下你的问题是“n”文件的“m”项矩阵。 矩阵的每个条目Aij表示文档“j”中术语“i”的权重。 这是您使用TF-IDF的地方。 知道在矩阵的每个单元格中放入什么。

然后,如果它适合您的应用程序,您可以使用LSA减小矩阵的尺寸。

我希望这可以解决一些问题。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM