簡體   English   中英

我可以對具有非連續觀察空間的問題使用強化學習嗎?

[英]Can I use Reinforcment Learning for a problem that has a non continous observation space?

我想訓練一個代理人在一個 9x9 的字段上放置一個 polyomino(只有一個,例如 2x2 的平方),該字段要么是空的,要么已經包含多個 OTHER(不是 2x2 平方)polyomino。 所以觀察空間不會是連續的。 這是 RL 的正確用例嗎?

當然,為什么不呢? 強化學習算法的最簡單版本使用離散的 state 空間(實際上,為了收斂,假設代理能夠訪問每個 state 足夠多次)。 即使狀態太多並且您必須用學習的近似值(可能是 neural.net)替換 Q function,您也可以對輸入使用 one-hot 編碼。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM