簡體 English 中英

Q 學習應用於兩人游戲

[英]Q Learning Applied To a Two Player Game

原文 2018-03-23 13:59:54 9 2 python/ tic-tac-toe/ reinforcement-learning/ q-learning

我正在嘗試實施 Q Learning 代理來學習在 Tic Tac Toe 游戲中與隨機代理對戰的最佳策略。

我制定了一個我相信會奏效的計划。 只有一部分我無法理解。 這是因為環境中有兩個參與者。

現在，Q Learning agent 應該根據當前狀態s 、給定某個策略采取的行動a 、給定該行動的后續狀態s'以及從該后續狀態收到的任何獎勵r采取行動。

讓我們把它放到一個元組(s, a, r, s')

現在通常情況下，代理會根據給定的操作發現自己遇到的每個狀態，並使用 Q 學習方程來更新先前狀態的值。

然而，由於 Tic Tac Toe 有兩個玩家，我們可以將狀態集分成兩個。 一組狀態可以是學習代理轉向行動的狀態。 另一組狀態可以是對手輪到采取行動的地方。

那么，我們需要將狀態一分為二嗎？ 或者學習代理是否需要更新游戲中訪問的每個狀態？

我覺得好像應該是后者，因為這可能會影響對手贏得比賽時更新 Q 值。

任何對此的幫助都會很棒，因為網上似乎沒有任何東西可以幫助我解決困境。

2 個解決方案

一般來說，如果假設對手也可以學習，直接將 Q-learning 應用於兩人游戲（或其他類型的多智能體環境）不太可能產生很好的結果。 但是，你特別提到

與隨機代理人對戰

這意味着它實際上可以工作，因為這意味着對手沒有學習/改變它的行為，所以你可以可靠地將對手視為“環境的一部分” 。

完全做到這一點也可能是您可以采取的最佳方法。 將對手（和他的行為）視為環境的一部分意味着您基本上應該完全忽略對手移動的所有狀態。 每當你的智能體采取行動時，你也應該立即為對手產生一個行動，然后才將結果狀態作為下一個狀態。

因此，在元組(s, a, r, s')中，我們有：

s = 你的代理人要移動的狀態
a = 您的代理執行的操作
r = 一步獎勵
s' =您的代理將再次移動的下一個狀態

對方要動的狀態，做出的動作，完全沒有出現。 它們應該被簡單地視為環境中不可觀察的、不確定的部分。 從您的算法的角度來看， s和s'之間沒有其他狀態，其中有一個對手可以采取行動。 從您的算法的角度來看，環境只是不確定的，這意味着在狀態s中采取行動a有時會隨機導致s' ，但有時也可能隨機導致不同的狀態s'' 。