繁体 English 中英

使用强化学习的数学测验应用

[英]Math quiz Application using reinforcement learning

原文 2018-12-31 04:39:30 0 1 python/ recommendation-engine

我想使用强化学习开发一个数学测验程序。 假设我们手头有 1000 个问题，每个测验要问 25 个问题。 程序必须从用户回答的方式中学习并提出下一个问题，而不是随机提问。

问答程序应该是一个强化学习代理。 如何设计解决方案以及要使用哪些强化学习技术？ 示例：BoT：什么是 5+ 1：用户：3（错误答案） Bot：问了一个简单的问题，或者如果正确答案问了一个困难的问题。

PPO 是 edTech 领域中此类 RL 应用程序非常常用的技术。 您可以从这篇文章中获得很多灵感。 他们使用 RLgraph 包和 PPO 算法。

您首先必须定义您的目标/奖励功能。 在您的情况下，我会将奖励函数定义为与正确回答的先前问题的百分比有关。 如果此百分比为 0% 或 100%，则奖励较低（太难/太容易）。 如果它接近 50%，您可能会选择高奖励。

这样，算法将转向获得 50% 正确性的问题（中等难度）。 您可以玩范围（最后 2 q's 或最后 10 q's）。

作为状态空间，您还可以包括正确回答的问题，可能包括年龄等特征，以在用户尚未使用太多时帮助启动算法。

作为行动空间，你可以拥有所有的问题。 您还可以根据您的直觉对（例如困难/简单或几何/代数）问题进行聚类，并进行聚类操作，以减少操作空间。

[英]Python - Using pandas with reinforcement learning

[英]Reinforcement learning algorithm using turtle graphics not functioning

[英]Reinforcement Learning (Using Tensorflow and a Matlab Env)

[英]Bounding Box Refinement using Reinforcement Learning

[英]Reinforcement learning, pendulum python

[英]Negative reward in reinforcement learning

[英]Time step in reinforcement learning

[英]Simple interface for reinforcement learning

[英]Reinforcement Learning on a Supervised Dataset

[英]reinforcement learning - number of actions

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Python - 将 pandas 与强化学习一起使用使用乌龟图形的强化学习算法不起作用强化学习（使用 Tensorflow 和 Matlab 环境）使用强化学习精炼边界框强化学习，钟摆蟒蛇强化学习中的负面奖励强化学习中的时间步长简单的界面用于强化学习监督数据集上的强化学习强化学习 - 动作数量

相关标签