簡體 English 中英

使用強化學習的數學測驗應用

[英]Math quiz Application using reinforcement learning

原文 2018-12-31 04:39:30 2 1 python/ recommendation-engine

我想使用強化學習開發一個數學測驗程序。 假設我們手頭有 1000 個問題，每個測驗要問 25 個問題。 程序必須從用戶回答的方式中學習並提出下一個問題，而不是隨機提問。

問答程序應該是一個強化學習代理。 如何設計解決方案以及要使用哪些強化學習技術？ 示例：BoT：什么是 5+ 1：用戶：3（錯誤答案） Bot：問了一個簡單的問題，或者如果正確答案問了一個困難的問題。

PPO 是 edTech 領域中此類 RL 應用程序非常常用的技術。 您可以從這篇文章中獲得很多靈感。 他們使用 RLgraph 包和 PPO 算法。

您首先必須定義您的目標/獎勵功能。 在您的情況下，我會將獎勵函數定義為與正確回答的先前問題的百分比有關。 如果此百分比為 0% 或 100%，則獎勵較低（太難/太容易）。 如果它接近 50%，您可能會選擇高獎勵。

這樣，算法將轉向獲得 50% 正確性的問題（中等難度）。 您可以玩范圍（最后 2 q's 或最后 10 q's）。

作為狀態空間，您還可以包括正確回答的問題，可能包括年齡等特征，以在用戶尚未使用太多時幫助啟動算法。

作為行動空間，你可以擁有所有的問題。 您還可以根據您的直覺對（例如困難/簡單或幾何/代數）問題進行聚類，並進行聚類操作，以減少操作空間。

[英]Python - Using pandas with reinforcement learning

[英]Reinforcement learning algorithm using turtle graphics not functioning

[英]Reinforcement Learning (Using Tensorflow and a Matlab Env)

[英]Bounding Box Refinement using Reinforcement Learning

[英]Reinforcement learning, pendulum python

[英]Negative reward in reinforcement learning

[英]Time step in reinforcement learning

[英]Simple interface for reinforcement learning

[英]Reinforcement Learning on a Supervised Dataset

[英]reinforcement learning - number of actions

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 Python - 將 pandas 與強化學習一起使用使用烏龜圖形的強化學習算法不起作用強化學習（使用 Tensorflow 和 Matlab 環境）使用強化學習精煉邊界框強化學習，鍾擺蟒蛇強化學習中的負面獎勵強化學習中的時間步長簡單的界面用於強化學習監督數據集上的強化學習強化學習 - 動作數量

相關標簽