[英]Latent semantic analysis (LSA) single value decomposition (SVD) understanding
通过对LSI(机械工程背景)的适度了解与我联系:
在LSI中执行SVD之后,您将获得3个矩阵:
U,S和V转置。
U将单词与主题进行比较,S是每种功能强度的一种度量。 Vt将主题与文档进行比较。
U dot S dot Vt
返回SVD之前的原始矩阵。 如果不做太多(没有)深度代数,似乎:
U dot S dot **Ut**
传回字词矩阵,可提供字词之间的比较。 也就是说,一个术语与其他术语之间的关系如何,即一种DSM(设计结构矩阵),它比较单词而不是组成部分。 我可能完全错了,但是我在一个样本数据集上进行了尝试,结果似乎很有意义。 不过,这可能只是偏见(我想让它起作用,所以我看到了我想要的)。 由于文件受到保护,我无法发布结果。
我的问题是:这有意义吗? 逻辑上? 数学上?
感谢您的任何时间/回复。
如果您想知道一个术语与另一个术语的相关性,您可以计算
(U点S)
术语由行向量表示。 然后,您可以通过应用距离函数(例如欧几里得距离)来计算距离矩阵。 一旦通过计算所有向量之间的距离得出距离矩阵,结果矩阵应为空心对称且所有距离> 0。 如果距离A [i,j]小,则它们是相关的,否则就不相关。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.