繁体   English   中英

关于半监督自动标记的实施建议

[英]Implementation advice on semi-supervised automated tagging

我想知道存在什么方法来开发自动标记系统。 我正在建立公司内部的反馈平台,我们的业务用户希望在帖子中添加标签。 我想构建一个系统,在用户发布标签时向他们建议标签,从而允许用户更正建议并让系统从这些建议中学习。 我们有几个最初要使用的标签,但是允许用户根据需要添加更多标签。

我知道LDA算法和Kea / Mallet,但是这些似乎是不完整的解决方案。 我想将我们的预定义标签添加到现有帖子中,然后将其用作系统前进的指南。

只是寻找一些有关如何进行的建议。 一个问题是数据集目前很小(〜90个帖子)。

谢谢!

针对这个确切的问题,我写了一篇博士论文,称为Generative AI。 由于您可能不打算阅读本文,因此这里是解决此类问题的通用算法:

1)标准化数据:确保范围在0到1之间,或者如果有数字则在-1到1之间; 如果您有单词/名称,请仅使用小写字母(或仅使用大写字母); 如果两者兼有,则将数据拆分为数字和其他标签,并使其成为多分类器系统。

2)使用KNN(K近邻),直到类别变得足够大(通常对于一个类/类别中的前几百项,您可以使用KNN)。 尝试不同的设置以优化结果。 玩K(通常我使用1到21的范围,总是不均匀的数字)和距离功能。 Scipy具有易于使用的良好实现。

同样,使用标签的排名来影响决策。 例如,如果您的K为11,那么您获得的第一个项目的所有标签将获得11分。 标签的第二项得到10分,等等。然后收集标签,并根据标签得到的分值显示最佳(N)个标签。

然后向用户显示标签,以便用户可以提供反馈,并且系统可以自我更新。 显示更多标签的优点是用户必须减少键入。

3)一旦有足够的物品,就应该用支持向量机替换KNN算法。 通常,线性支持向量机就足够了。 为了优化(线性)支持向量机,请对参数使用网格搜索。


基本思想是,您拥有一个生成假设的系统(在这种情况下为标签),并且用户通常在生产系统中提供反馈,以便AI可以优化自身。

如果您对我的博士学位论文感兴趣,请访问:

HTTPS:/irs.ub.rug.nl/dbi/4c86122381f79

目前,我将其用于实时学习的机器人...

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM