繁体 English 中英

潜在语义索引如何用于特征选择？

[英]How can Latent Semantic Indexing be used for feature selection?

原文 2014-03-12 10:25:57 6 1 python/ r/ machine-learning/ feature-selection

我正在学习一些机器学习，并且在很多地方都遇到过潜在语义索引可以用于特征选择的问题。 有人可以提供有关此操作方式的简短说明吗？ 理想情况下，无论是在理论上还是在注释代码中。 它与主成分分析有何不同？

用什么语言写的并不是我真正担心的，只是我能同时理解代码和理论。

1 个解决方案

LSA在概念上类似于PCA，但用于不同的设置。

PCA的目标是将数据转换为新的 ，可能尺寸较小的空间。 例如，如果您想识别人脸并使用640x480像素的图像（即307200维空间中的矢量），则可能会尝试将此空间缩小到两者都合理的水平-使它的计算更简单，并使数据的噪点更少。 PCA正是这样做的：它会“旋转”高维空间的轴，并为每个新轴分配“权重”，这样您就可以丢弃其中最不重要的轴。

另一方面， LSA用于分析单词的语义相似性 。 它不能处理图像，银行数据或其他自定义数据集。 它是专为文本处理而设计的，并且专门用于术语文档矩阵。 但是，此类矩阵通常被认为太大，因此以与PCA非常相似的方式将它们简化为低阶矩阵（它们均使用SVD ）。 但是，此处未执行功能选择。 相反，您得到的是特征向量变换 。 SVD为您提供了一些转换矩阵（我们称其为S ），将其乘以输入向量x在更小的空间中以更重要的基础提供新的向量x' 。 这个新基础是您的新功能。 虽然，它们不是被选择的，而是通过转换较大的旧基础而获得的。

有关LSA的详细信息，只要实现技巧，看到这个文章。

通过潜在语义分析建立索引的问题

[英]Problems with Indexing by Latent Semantic Analysis

试图弄清潜在语义索引（LSI）

[英]Trying to make sense of Latent Semantic Indexing(LSI)

潜在语义分析结果

[英]Latent Semantic Analysis results

如何使用潜在语义分析（LSA）将文档归类为主题

[英]How to cluster documents under topics using latent semantic analysis (lsa)

如何在 StyleGAN2 的投影过程中获得用于生成图像的潜值？

[英]How can I get a latent that was used to generate an image during the projection process in StyleGAN2?

scikit Lasso / LARS如何用作回归特征选择工具？

[英]How is the scikit Lasso/LARS used as a regressive feature selection tool?

Python差异的潜在语义分析

[英]Latent Semantic Analysis in Python discrepancy

潜在语义分析（LSA）教程

[英]Latent Semantic Analysis (LSA) Tutorial

使用潜在语义分析和sklearn

[英]Use Latent Semantic Analysis with sklearn

class 中用于特征选择的 function 的说明

[英]Explainantion of a function used in class for feature selection

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 通过潜在语义分析建立索引的问题试图弄清潜在语义索引（LSI）潜在语义分析结果如何使用潜在语义分析（LSA）将文档归类为主题如何在 StyleGAN2 的投影过程中获得用于生成图像的潜值？ scikit Lasso / LARS如何用作回归特征选择工具？ Python差异的潜在语义分析潜在语义分析（LSA）教程使用潜在语义分析和sklearn class 中用于特征选择的 function 的说明

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM