繁体 English 中英

如何为4个类别的文本分类创建训练数据

[英]How to create Training data for Text classification on 4 categories

原文 2016-09-12 06:53:37 4 1 text/ machine-learning/ classification/ naivebayes

我的机器学习目标是从“项目需求”文档中搜索潜在风险（将花费更多的钱）和机会（将节省金钱）。

我的想法是将数据中的句子归为以下类别之一：风险，机会和不相关（无风险，无机会，默认类别）。

我将在tf-dif中使用多项式贝叶斯分类器。

现在，我需要有关训练集和测试集的数据。 我这样做的方法是用3个类别中的1个标记需求文档中的每个句子。 这是一个好方法吗？

还是只应该标记明显有风险/机会/无关的句子？

另外，无关类别是个好主意吗？

1 个解决方案

我相信三级方法是一个很好的方法。 这与情感分析相似，在情感分析中，您通常具有正面，负面和中立的文件（或句子）。 中性点占绝大多数实例，因此您的分类问题将不平衡。 这不一定是一个问题，但是对于像这样的难题，天真的贝叶斯分类器可能会简单地将中性/无关桶中的所有内容分类，因为中性的先验值会很高。

您的采样（标签）应该代表现实。 不要尝试创建1000个风险，1000个机会，1000个无关的数据集。 取而代之的是，抽取例如10000个要求的样本，并为每个要求分配适当的标签，即使这意味着比“风险”要多得多。
文本分类模型需要很多实例，因为搜索空间很大。 我想知道您是否考虑过要获得可靠结果（例如超过90％）的事实，您可能需要手动标记数千个实例。
即使您有成千上万的训练实例，您的问题也显得尤为困难，除非有一些显而易见的关键字触发我不理解的“风险”或“机会”。 问问自己：这对人类来说很容易判断吗？ 如果您让3名法官对您的要求进行分类，他们是否都会给出相同的答案？ 如果不是这样，那么您可能需要成千上万的培训文档，并且分类准确性可能仍然令人失望。

如何创建训练集？ -文字分类

[英]How to create training set? - Text classification

Python监督ML文本分类到不同类别的可能性

[英]Python supervised ML text classification into different categories with probability

文本分类任务的数据结构

[英]Data Structure for Text Classification Task

使用Turi创建简单的文本分类

[英]Using Turi to create a simple text classification

需要有关体育，娱乐，健康等类别以及所有子类别的培训数据

[英]Need training data for categories like Sports, Entertainment, Health etc and all the sub categories

为TensorFlow培训存储大量文本数据？

[英]Storing large amount of text data for TensorFlow training?

信息获取在文本分类中的工作方式

[英]How Information Gain Works in Text Classification

如何在文本分类中找到信息增益？

[英]How to find Information gain in text classification?

TensorFlow文本分类示例-如何评估自己的文本？

[英]TensorFlow example for text classification - how to evaluate your own text?

如何将文本文档表示为文本分类的特征向量？

[英]How to represent text documents as feature vectors for text classification?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何创建训练集？ -文字分类 Python监督ML文本分类到不同类别的可能性文本分类任务的数据结构使用Turi创建简单的文本分类需要有关体育，娱乐，健康等类别以及所有子类别的培训数据为TensorFlow培训存储大量文本数据？信息获取在文本分类中的工作方式如何在文本分类中找到信息增益？ TensorFlow文本分类示例-如何评估自己的文本？如何将文本文档表示为文本分类的特征向量？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM