[英]Which formula of tf-idf does the LSA model of gensim use?
有许多不同的方法可以计算tf和idf。 我想知道gensim在其LSA模型中使用了哪个公式。 我一直在浏览其源代码lsimodel.py
,但是对我而言,创建文档项矩阵的位置并不明显(可能是由于内存优化lsimodel.py
)。
在一篇LSA论文中 ,我读到文档项矩阵的每个单元都是该单词在该文档中的对数频率除以该单词的熵:
tf(w, d) = log(1 + frequency(w, d))
idf(w, D) = 1 / (-Σ_D p(w) log p(w))
但是,这似乎是tf-idf的非常特殊的表述。 tf-idf更常见的形式是:
tf(w, d) = frequency(w, d)
idf(w, D) = log(|D| / |{d ∈ D: w ∈ d}|)
我还注意到, 在TfIdfModel
如何实现TfIdfModel
本身存在一个问题 。 但是,我没有看到lsimodel.py
导入TfIdfModel
,因此只能假定lsimodel.py
具有自己的tf-idf实现。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.