繁体 English 中英

对自由格式文本条目进行分类或聚类的好方法是什么？

[英]What is a good way to classify or cluster free form text entries?

原文 2015-01-29 16:08:00 1 2 machine-learning/ grouping/ cluster-analysis

我为用户输入了N个项目的一组评分，以及为什么他们为该项目选择该评分的原因。 等级以序数标度（-2，-1、0，+ 1，+ 2）表示。 我想提出这些原因的有意义的分组。 例如，假设用户正在对电影进行分级，则分级背后的原因可能分为3大类：1）。 “他们是演员的忠实粉丝”，2）。 “惊人的故事情节”，4）。 “缺乏创意”。 这只是一个虚拟的例子。

更具体地讲，给定一组自由格式的文本条目，可以提出这样的分组。 我知道主题建模是做到这一点的一种方法。 我可以指定主题数K，然后将数据输入主题模型（LDA等），该模型将输出K个主题，其中每个主题都是该主题中最可能出现的单词的列表。 因此，对于该虚拟示例，主题1可能包含单词和词组，例如-“粉丝”，“演员”，“伟大表演”。

还有其他方法可以进行群集吗？ 聚类时是否需要考虑序数等级量表？ 我该如何考虑？

2 个解决方案

单词嵌入可能会有用。 这是斯坦福大学最近的一个相关项目。

这取决于您希望文本处理的复杂程度。 如果仅匹配单个单词（1克）就足够了：

删除停用词
可能进行词干或其他文本预处理
应用朴素贝叶斯分类算法选项位于： http : //en.wikipedia.org/wiki/Naive_Bayes_classifier

但是，您可能还希望在短语/相关词方面做得更好。 在这种情况下，有大量的研究和实现方法可以为您提供帮助。 Ngrams是一种相对简单的方法，但是了解语言语义的更高级的方法具有更好的统计性能。

通过机器学习算法对网站中的文本和照片进行分类的最简单方法是什么？

[英]What is the easiest way to classify text and photos in a website by machine learning algorithms?

在Sklearn机器学习中，有没有办法在没有目标标签的情况下对文本进行分类？

[英]In Sklearn machine learning, is there any way to classify text without target labels?

有没有什么方法可以使用 python 根据给定的关键字对文本进行分类？

[英]Is there any way to classify text based on some given keywords using python?

对产品描述的杂乱文本数据进行分类的最佳方法

[英]Best way to classify Messy Text Data of Product Description

如何对搜索查询进行聚类/分类

[英]How to cluster/classify search query

机器学习对程序进行聚类或分类

[英]Machine learning to cluster or classify programs

如何使用Knime对文本进行分类

[英]How to classify text with Knime

Python：将文本分类

[英]Python: classify text into the categories

使用NaiveBayesClassifier对文本进行分类

[英]Classify text using NaiveBayesClassifier

使用sklearn DBSCAN模型对新条目进行分类

[英]Use sklearn DBSCAN model to classify new entries

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 通过机器学习算法对网站中的文本和照片进行分类的最简单方法是什么？在Sklearn机器学习中，有没有办法在没有目标标签的情况下对文本进行分类？有没有什么方法可以使用 python 根据给定的关键字对文本进行分类？对产品描述的杂乱文本数据进行分类的最佳方法如何对搜索查询进行聚类/分类机器学习对程序进行聚类或分类如何使用Knime对文本进行分类 Python：将文本分类使用NaiveBayesClassifier对文本进行分类使用sklearn DBSCAN模型对新条目进行分类

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM