在Q-Learning中獲得state的TicTacToe棋盤

Question

我剛剛進入強化學習和 q-learning，我想嘗試創建一個 Tic-Tac-Toe AI。 使用 Q 表，我需要找到電路板的“狀態”，但我很難找到一種方法來做到這一點。

為了進一步說明，state 是一個代表當前棋盤的數字，包括九個方格中每個方格的值。

一個看起來像的板：

[[0, 0, 0],
 [0, 0, 0],
 [0, 0, 0]]

將是 state 0，因為它是第一塊板。 除此之外，我不確定如何根據數組計算電路板的 state。

[編輯] 我來這里是因為我真的不知道從哪里開始； 我在 web 上找不到任何內容，如果您不喜歡我的問題，至少可以告訴我原因。

Answer 1

我想你需要這樣的東西。

import numpy as np
max_number = 10
L = [[1, 0, 0],
 [0, 0, 0],
 [0, 5, 0]]

L_1d = sum(L, [])
print(L_1d)
# [1, 0, 0, 0, 0, 0, 0, 5, 0]
degrees = max_number ** np.arange(len(L_1d))
print(degrees)
# [        1        10       100      1000     10000    100000   1000000   10000000 100000000]
state = L_1d @ degrees
print(state)
# 50000001

在Q-Learning中獲得state的TicTacToe棋盤

問題描述

1 個解決方案

解決方案1
1 已采納 2020-06-11 14:26:02

在Q-Learning中獲得state的TicTacToe棋盤

問題描述

1 個解決方案

解決方案1 1 已采納 2020-06-11 14:26:02

解決方案1
1 已采納 2020-06-11 14:26:02