繁体   English   中英

机器学习算法仅对阳性和未标记数据进行分类

[英]Machine learning algorithm to classify only positive and unlabeled data

我正在尝试仅使用积极特征和未标记数据对文本进行分类。 我只希望算法识别出阳性数据,并希望将其他所有内容标记为阴性。 什么是将此类数据分类的良好机器学习算法? 我曾尝试在Weka中使用不同的算法,但几乎所有分类器都会带来很多误报。

如果您认为未标记的数据主要是负数,那么最好的办法是将所有未标记的数据标记为“负”并运行您选择的分类器。 请注意,如果您得到的未标记测试数据点预计为阳性,则并不意味着答案是错误的。 您的一些未标记数据可能是肯定的。 因此,很难判断您的分类器在您的设置中的表现如何。 如果您认为未标记的数据可能偏向正值,那么最好在正值数据上使用所谓的“一类分类器”,其中包括一类SVM。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM