繁体 English 中英

关于半监督自动标记的实施建议

[英]Implementation advice on semi-supervised automated tagging

原文 2014-10-21 14:45:51 7 1 machine-learning/ artificial-intelligence/ topic-modeling

我想知道存在什么方法来开发自动标记系统。 我正在建立公司内部的反馈平台，我们的业务用户希望在帖子中添加标签。 我想构建一个系统，在用户发布标签时向他们建议标签，从而允许用户更正建议并让系统从这些建议中学习。 我们有几个最初要使用的标签，但是允许用户根据需要添加更多标签。

我知道LDA算法和Kea / Mallet，但是这些似乎是不完整的解决方案。 我想将我们的预定义标签添加到现有帖子中，然后将其用作系统前进的指南。

只是寻找一些有关如何进行的建议。 一个问题是数据集目前很小（〜90个帖子）。

谢谢！

1 个解决方案

针对这个确切的问题，我写了一篇博士论文，称为Generative AI。 由于您可能不打算阅读本文，因此这里是解决此类问题的通用算法：

1）标准化数据：确保范围在0到1之间，或者如果有数字则在-1到1之间； 如果您有单词/名称，请仅使用小写字母（或仅使用大写字母）； 如果两者兼有，则将数据拆分为数字和其他标签，并使其成为多分类器系统。

2）使用KNN（K近邻），直到类别变得足够大（通常对于一个类/类别中的前几百项，您可以使用KNN）。 尝试不同的设置以优化结果。 玩K（通常我使用1到21的范围，总是不均匀的数字）和距离功能。 Scipy具有易于使用的良好实现。

同样，使用标签的排名来影响决策。 例如，如果您的K为11，那么您获得的第一个项目的所有标签将获得11分。 标签的第二项得到10分，等等。然后收集标签，并根据标签得到的分值显示最佳（N）个标签。

然后向用户显示标签，以便用户可以提供反馈，并且系统可以自我更新。 显示更多标签的优点是用户必须减少键入。

3）一旦有足够的物品，就应该用支持向量机替换KNN算法。 通常，线性支持向量机就足够了。 为了优化（线性）支持向量机，请对参数使用网格搜索。

基本思想是，您拥有一个生成假设的系统（在这种情况下为标签），并且用户通常在生产系统中提供反馈，以便AI可以优化自身。

如果您对我的博士学位论文感兴趣，请访问：

HTTPS：/irs.ub.rug.nl/dbi/4c86122381f79

目前，我将其用于实时学习的机器人...

半监督学习的测试数据

[英]semi-supervised learning's testing data

准备好的包用于半监督学习

[英]Ready package for semi-supervised learning

决策树学习可以“半监督”吗？

[英]Can decision tree learning be “semi-supervised”

集体分类和半监督学习有什么区别

[英]What's the difference between collective classification and semi-supervised learning

scikit-learn用于回归的半监督学习

[英]Semi-supervised learning for regression by scikit-learn

sklearn：半监督学习 - LabelSpreadingModel内存错误

[英]sklearn: semi-supervised learning - LabelSpreadingModel memory error

我如何将完全标记的数据集拆分为标记和未标记的数据以用于半监督学习目的

[英]How I can split a fully labeled dataset into labeled and unlabeled data for semi-supervised learning purpose

sklearn的半监督学习

[英]Semi supervised learning with sklearn

半监督算法中R代码中的错误

[英]Error in R code in a semi supervised algorithm

Weka-半监督学习-如何标记数据并取回结果？

[英]Weka - semi supervised learning - how to label data and get back the result?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 半监督学习的测试数据准备好的包用于半监督学习决策树学习可以“半监督”吗？集体分类和半监督学习有什么区别 scikit-learn用于回归的半监督学习 sklearn：半监督学习 - LabelSpreadingModel内存错误我如何将完全标记的数据集拆分为标记和未标记的数据以用于半监督学习目的 sklearn的半监督学习半监督算法中R代码中的错误 Weka-半监督学习-如何标记数据并取回结果？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM