繁体   English   中英

提高文本分类的准确性

[英]Improving Accuracy on Text Classification

我正在尝试为文本分类任务找到一个模型。 我的样本数量约为 4500 个句子,每个句子长度约为 50 个单词。 我想对我的文本进行分类的类是 3 个,正面、负面和中性。 我使用了机器学习(SVM、RF、LR)并且我的准确率不超过 75%(我也完成了预处理部分)。 我想和深度神经网络一起工作,也许经常使用,但我不知道从哪里开始。 您有什么建议才能达到最大的准确性? 我应该期望多少准确度? (ps我用的是python)

4500 个句子,每个 50 个词的长度对于深度架构来说是不够的。 你可以试着弄清楚,但我认为它不会奏效。
有了这么多数据,我建议您在尝试过的算法(SVM、RF 等)的参数调整和词嵌入上投入更多精力。 您如何在数字空间中表示您的数据? 使用非最先进方法的良好嵌入仍然可以显示出出色的结果。
对于期望准确度的问题,如果我没有看到数据,我无法告诉您这些信息。 但是,根据我自己的经验,一个 3 类文本分类问题,每个句子都不会太长,可以以 80% 到 90%,甚至 98% 的准确率解决。 这在很大程度上取决于您的数据的本质

正面/负面/中性文本/评论分类是一项非常常见的任务,网络上有许多数据集。 您可以使用其中的一些并扩展您的训练数据集。 或者尝试使用基于它们的预训练模型。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM