[英]Math quiz Application using reinforcement learning
我想使用強化學習開發一個數學測驗程序。 假設我們手頭有 1000 個問題,每個測驗要問 25 個問題。 程序必須從用戶回答的方式中學習並提出下一個問題,而不是隨機提問。
問答程序應該是一個強化學習代理。 如何設計解決方案以及要使用哪些強化學習技術? 示例:BoT:什么是 5+ 1:用戶:3(錯誤答案) Bot:問了一個簡單的問題,或者如果正確答案問了一個困難的問題。
PPO 是 edTech 領域中此類 RL 應用程序非常常用的技術。 您可以從這篇文章中獲得很多靈感。 他們使用 RLgraph 包和 PPO 算法。
您首先必須定義您的目標/獎勵功能。 在您的情況下,我會將獎勵函數定義為與正確回答的先前問題的百分比有關。 如果此百分比為 0% 或 100%,則獎勵較低(太難/太容易)。 如果它接近 50%,您可能會選擇高獎勵。
這樣,算法將轉向獲得 50% 正確性的問題(中等難度)。 您可以玩范圍(最后 2 q's 或最后 10 q's)。
作為狀態空間,您還可以包括正確回答的問題,可能包括年齡等特征,以在用戶尚未使用太多時幫助啟動算法。
作為行動空間,你可以擁有所有的問題。 您還可以根據您的直覺對(例如困難/簡單或幾何/代數)問題進行聚類,並進行聚類操作,以減少操作空間。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.