[英]Can I use Reinforcment Learning for a problem that has a non continous observation space?
我想訓練一個代理人在一個 9x9 的字段上放置一個 polyomino(只有一個,例如 2x2 的平方),該字段要么是空的,要么已經包含多個 OTHER(不是 2x2 平方)polyomino。 所以觀察空間不會是連續的。 這是 RL 的正確用例嗎?
當然,為什么不呢? 強化學習算法的最簡單版本使用離散的 state 空間(實際上,為了收斂,假設代理能夠訪問每個 state 足夠多次)。 即使狀態太多並且您必須用學習的近似值(可能是 neural.net)替換 Q function,您也可以對輸入使用 one-hot 編碼。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.