繁体   English   中英

如何为4个类别的文本分类创建训练数据

[英]How to create Training data for Text classification on 4 categories

我的机器学习目标是从“项目需求”文档中搜索潜在风险(将花费更多的钱)和机会(将节省金钱)。

我的想法是将数据中的句子归为以下类别之一:风险,机会和不相关(无风险,无机会,默认类别)。

我将在tf-dif中使用多项式贝叶斯分类器。

现在,我需要有关训练集和测试集的数据。 我这样做的方法是用3个类别中的1个标记需求文档中的每个句子。 这是一个好方法吗?

还是只应该标记明显有风险/机会/无关的句子?

另外,无关类别是个好主意吗?

我相信三级方法是一个很好的方法。 这与情感分析相似,在情感分析中,您通常具有正面,负面和中立的文件(或句子)。 中性点占绝大多数实例,因此您的分类问题将不平衡。 这不一定是一个问题,但是对于像这样的难题,天真的贝叶斯分类器可能会简单地将中性/无关桶中的所有内容分类,因为中性的先验值会很高。

  • 您的采样(标签)应该代表现实。 不要尝试创建1000个风险,1000个机会,1000个无关的数据集。 取而代之的是,抽取例如10000个要求的样本,并为每个要求分配适当的标签,即使这意味着比“风险”要多得多。
  • 文本分类模型需要很多实例,因为搜索空间很大。 我想知道您是否考虑过要获得可靠结果(例如超过90%)的事实,您可能需要手动标记数千个实例。
  • 即使您有成千上万的训练实例,您的问题也显得尤为困难,除非有一些显而易见的关键字触发我不理解的“风险”或“机会”。 问问自己:这对人类来说很容易判断吗? 如果您让3名法官对您的要求进行分类,他们是否都会给出相同的答案? 如果不是这样,那么您可能需要成千上万的培训文档,并且分类准确性可能仍然令人失望。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM