繁体   English   中英

基于主题的推荐系统的用户配置文件

[英]User profiling for topic-based recommender system

我正在尝试提出一个基于主题的推荐系统,向用户建议相关的文本文档。

我使用gensim在Wikipedia语料库上训练了一个潜在的语义索引模型。 这使我可以轻松地将文档转换为LSI主题分布。 我现在的想法是用相同的方式代表用户。 但是,当然,用户具有浏览过文章的历史以及文章评级。

所以我的问题是:如何代表用户?

我的想法如下:将用户视为所查看的所有文档的集合。 但是如何考虑评级?

有任何想法吗?

谢谢

我认为这不适用于lsa。

但是您可能可以进行某种k-NN分类,其中每个用户的坐标就是查看的文档。 每个对象(=用户)发出辐射(强度与距离的平方成反比)。 强度是根据单个文档的等级计算得出的。

然后,您可以在此超维空间中放置一个对象(用户),并查看其他用户给予最多“照明”的对象。

但是:Apache Lucene不能为您做全部吗?

“将用户表示为所查看的所有文档的集合”:确实可行,因为您位于线性空间中。 您可以轻松地将所有文档向量添加到一个大向量中。

如果要添加等级,可以简单地在总和中添加一个系数。

假设您将所有等级为2的文档归为一个向量D2,等级为3则归为D3等...然后您可以简单地将用户向量定义为U = c2 * D2 + c3 * D3 +...。 ,但最简单的方法是简单地乘以评分,然后出于标准化原因除以最高评分。

如果您的最高评分为5,则可以定义例如c2 = 2/5,c3 = 3/5 ...

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM