簡體   English   中英

使用強化學習的數學測驗應用

[英]Math quiz Application using reinforcement learning

我想使用強化學習開發一個數學測驗程序。 假設我們手頭有 1000 個問題,每個測驗要問 25 個問題。 程序必須從用戶回答的方式中學習並提出下一個問題,而不是隨機提問。

問答程序應該是一個強化學習代理。 如何設計解決方案以及要使用哪些強化學習技術? 示例:BoT:什么是 5+ 1:用戶:3(錯誤答案) Bot:問了一個簡單的問題,或者如果正確答案問了一個困難的問題。

PPO 是 edTech 領域中此類 RL 應用程序非常常用的技術。 您可以從這篇文章中獲得很多靈感。 他們使用 RLgraph 包和 PPO 算法。

您首先必須定義您的目標/獎勵功能。 在您的情況下,我會將獎勵函數定義為與正確回答的先前問題的百分比有關。 如果此百分比為 0% 或 100%,則獎勵較低(太難/太容易)。 如果它接近 50%,您可能會選擇高獎勵。

這樣,算法將轉向獲得 50% 正確性的問題(中等難度)。 您可以玩范圍(最后 2 q's 或最后 10 q's)。

作為狀態空間,您還可以包括正確回答的問題,可能包括年齡等特征,以在用戶尚未使用太多時幫助啟動算法。

作為行動空間,你可以擁有所有的問題。 您還可以根據您的直覺對(例如困難/簡單或幾何/代數)問題進行聚類,並進行聚類操作,以減少操作空間。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM