繁体   English   中英

潜在语义索引如何用于特征选择?

[英]How can Latent Semantic Indexing be used for feature selection?

我正在学习一些机器学习,并且在很多地方都遇到过潜在语义索引可以用于特征选择的问题。 有人可以提供有关此操作方式的简短说明吗? 理想情况下,无论是在理论上还是在注释代码中。 它与主成分分析有何不同?

用什么语言写的并不是我真正担心的,只是我能同时理解代码和理论。

LSA在概念上类似于PCA,但用于不同的设置。

PCA的目标是将数据转换为新的 ,可能尺寸较小的空间。 例如,如果您想识别人脸并使用640x480像素的图像(即307200维空间中的矢量),则可能会尝试将此空间缩小到两者都合理的水平-使它的计算更简单,并使数据的噪点更少。 PCA正是这样做的:它会“旋转”高维空间的轴,并为每个新轴分配“权重”,这样您就可以丢弃其中最不重要的轴。

另一方面, LSA用于分析单词的语义相似性 它不能处理图像,银行数据或其他自定义数据集。 它是专为文本处理而设计的,并且专门用于术语文档矩阵。 但是,此类矩阵通常被认为太大,因此以与PCA非常相似的方式将它们简化为低阶矩阵(它们均使用SVD )。 但是,此处未执行功能选择。 相反,您得到的是特征向量变换 SVD为您提供了一些转换矩阵(我们称其为S ),将其乘以输入向量x在更小的空间中以更重要的基础提供新的向量x' 这个新基础是您的新功能。 虽然,它们不是被选择的,而是通过转换较大的旧基础而获得的。

有关LSA的详细信息,只要实现技巧,看到这个文章。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM