[英]How to create Training data for Text classification on 4 categories
我的机器学习目标是从“项目需求”文档中搜索潜在风险(将花费更多的钱)和机会(将节省金钱)。
我的想法是将数据中的句子归为以下类别之一:风险,机会和不相关(无风险,无机会,默认类别)。
我将在tf-dif中使用多项式贝叶斯分类器。
现在,我需要有关训练集和测试集的数据。 我这样做的方法是用3个类别中的1个标记需求文档中的每个句子。 这是一个好方法吗?
还是只应该标记明显有风险/机会/无关的句子?
另外,无关类别是个好主意吗?
我相信三级方法是一个很好的方法。 这与情感分析相似,在情感分析中,您通常具有正面,负面和中立的文件(或句子)。 中性点占绝大多数实例,因此您的分类问题将不平衡。 这不一定是一个问题,但是对于像这样的难题,天真的贝叶斯分类器可能会简单地将中性/无关桶中的所有内容分类,因为中性的先验值会很高。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.