繁体   English   中英

NLC或R&R的再训练方法

[英]Re-training Approach for NLC or R&R

我们知道的基本事实用于重新训练NLC或R&R。

基本事实是问题级别的训练数据。

例如

“今天天气热吗?温度”

问题“今天有多热?” 因此被归为“温度”等级。

应用程序启动后,将收到真实的用户问题。 有些是相同的(即,来自真实用户的问题与基本事实中的问题是相同的),有些是相似的术语,有些是新问题。 假设应用程序有一个反馈循环,以了解该类(对于NLC)或答案(对于R&R)是否相关。

About the new questions, the approach seems to just add the them to the ground truth, which is then used to re-train the NLC/R&R?
For the questions with similar terms, do we just add them like the new questions, or do we just ignore them, given that similar terms can also be scored well even similar terms are not used to train the classifier?
In the case of the same questions, there seems nothing to do on the ground truth for NLC, however, to the R&R, are we just increase or decrease 1 for the relevance label in the ground truth?

简而言之,这里的主要问题是关于NLC&R&R的再培训方法是什么...

应用程序上线后,您应该定期查看反馈日志,以寻求改进的机会。 对于NLC,如果有一些文本分类不正确,则可以将这些文本添加到训练集中并重新训练,以改善分类器。

只要您的分类器返回可接受的响应,就不必捕获类的每个可能的变体。

您可以使用日志中的其他类示例来组装测试集中没有的文本测试集。 进行更改时运行此测试集将使您能够确定更改是否无意间导致了回归。 您可以通过使用REST客户端调用分类器或通过Beta自然语言分类器工具包来运行此测试。

可靠的再培训方法应该是从实时用户那里获得反馈。 您对任何经过再培训的NLC(或有关R&R)的测试和验证应遵循James Ravenscroft在此处概述的一些原则( https://brainsteam.co.uk/2016/03/29/cognitive-quality-保证简介/ )。

@davidgeorgeuk 的回答是正确的,但未能将想法扩展到您正在寻找的结论。 我将每月进行一系列活动,其中将浏览应用程序日志,其中REAL用户指示您未正确分类事物,并且还将任何新类合并到分类器中。 我将使用新数据重新训练NLC的第二个实例,并进行上面概述的测试方案。

当您对模型进行了改进后,我将切换代码以指向新的NLC实例,而旧的NLC实例将成为您的“备份”实例,下一个将用于本练习的实例月。 它只是使用一种简单的DevOps方法来管理您的NLC实例。 如果需要,可以将其扩展到开发,质量检查,生产方案。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM