繁体   English   中英

对自由格式文本条目进行分类或聚类的好方法是什么?

[英]What is a good way to classify or cluster free form text entries?

我为用户输入了N个项目的一组评分,以及为什么他们为该项目选择该评分的原因。 等级以序数标度(-2,-1、0,+ 1,+ 2)表示。 我想提出这些原因的有意义的分组。 例如,假设用户正在对电影进行分级,则分级背后的原因可能分为3大类:1)。 “他们是演员的忠实粉丝”,2)。 “惊人的故事情节”,4)。 “缺乏创意”。 这只是一个虚拟的例子。

更具体地讲,给定一组自由格式的文本条目,可以提出这样的分组。 我知道主题建模是做到这一点的一种方法。 我可以指定主题数K,然后将数据输入主题模型(LDA等),该模型将输出K个主题,其中每个主题都是该主题中最可能出现的单词的列表。 因此,对于该虚拟示例,主题1可能包含单词和词组,例如-“粉丝”,“演员”,“伟大表演”。

还有其他方法可以进行群集吗? 聚类时是否需要考虑序数等级量表? 我该如何考虑?

单词嵌入可能会有用。 是斯坦福大学最近的一个相关项目。

这取决于您希望文本处理的复杂程度。 如果仅匹配单个单词(1克)就足够了:

但是,您可能还希望在短语/相关词方面做得更好。 在这种情况下,有大量的研究和实现方法可以为您提供帮助。 Ngrams是一种相对简单的方法,但是了解语言语义的更高级的方法具有更好的统计性能。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM