繁体   English   中英

使用强化学习的数学测验应用

[英]Math quiz Application using reinforcement learning

我想使用强化学习开发一个数学测验程序。 假设我们手头有 1000 个问题,每个测验要问 25 个问题。 程序必须从用户回答的方式中学习并提出下一个问题,而不是随机提问。

问答程序应该是一个强化学习代理。 如何设计解决方案以及要使用哪些强化学习技术? 示例:BoT:什么是 5+ 1:用户:3(错误答案) Bot:问了一个简单的问题,或者如果正确答案问了一个困难的问题。

PPO 是 edTech 领域中此类 RL 应用程序非常常用的技术。 您可以从这篇文章中获得很多灵感。 他们使用 RLgraph 包和 PPO 算法。

您首先必须定义您的目标/奖励功能。 在您的情况下,我会将奖励函数定义为与正确回答的先前问题的百分比有关。 如果此百分比为 0% 或 100%,则奖励较低(太难/太容易)。 如果它接近 50%,您可能会选择高奖励。

这样,算法将转向获得 50% 正确性的问题(中等难度)。 您可以玩范围(最后 2 q's 或最后 10 q's)。

作为状态空间,您还可以包括正确回答的问题,可能包括年龄等特征,以在用户尚未使用太多时帮助启动算法。

作为行动空间,你可以拥有所有的问题。 您还可以根据您的直觉对(例如困难/简单或几何/代数)问题进行聚类,并进行聚类操作,以减少操作空间。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM