DQN 不收斂

Question

我正在嘗試在 openai-gym 的“月球着陸器”環境中實施 DQN。

在訓練 3000 集后，它沒有顯示收斂的跡象。 （作為對比，一個非常簡單的策略梯度方法在2000集之后收斂）

我多次檢查我的代碼，但找不到哪里出了問題。 我希望這里是否有人可以指出問題出在哪里。 下面是我的代碼：

我使用一個簡單的 fully-connected.network：

class Net(nn.Module):
    def __init__(self) -> None:
        super().__init__()
        self.main = nn.Sequential(
            nn.Linear(8, 16),
            nn.ReLU(),
            nn.Linear(16, 16),
            nn.ReLU(),
            nn.Linear(16, 4)
        )
    def forward(self, state):
        return self.main(state)

我在選擇動作時使用 epsilon greedy，epsilon（從 0.5 開始）隨着時間的推移呈指數下降：

def sample_action(self, state):
        self.epsilon = self.epsilon * 0.99
        action_probs = self.network_train(state)
        random_number = random.random()
        if random_number < (1-self.epsilon):
            action = torch.argmax(action_probs, dim=-1).item()
        else:
            action = random.choice([0, 1, 2, 3])
        return action

訓練時，我使用重播緩沖區、批量大小為 64 和梯度裁剪：

def learn(self):
        if len(self.buffer) >= BATCH_SIZE:
            self.learn_counter += 1
            transitions = self.buffer.sample(BATCH_SIZE)
            batch = Transition(*zip(*transitions))
            state = torch.from_numpy(np.concatenate(batch.state)).reshape(-1, 8)
            action = torch.tensor(batch.action).reshape(-1, 1)
            reward = torch.tensor(batch.reward).reshape(-1, 1)
            state_value = self.network_train(state).gather(1, action)
            next_state = torch.from_numpy(np.concatenate(batch.next_state)).reshape(-1, 8)
            next_state_value = self.network_target(next_state).max(1)[0].reshape(-1, 1).detach()
            loss = F.mse_loss(state_value.float(), (self.DISCOUNT_FACTOR*next_state_value + reward).float())
            self.optim.zero_grad()
            loss.backward()
            for param in self.network_train.parameters():
                param.grad.data.clamp_(-1, 1)
            self.optim.step()

我還使用了一個 target.network，它的參數每 100 個時間步更新一次：

def update_network_target(self):
        if (self.learn_counter % 100) == 0:
            self.network_target.load_state_dict(self.network_train.state_dict())

順便說一句，我使用 Adam 優化器和 1e-3 的 LR。

Answer 1

解決了。 顯然更新 target.network 的頻率太高了。 我將它設置為每 10 集並解決了問題。

DQN 不收斂

問題描述

1 個解決方案

解決方案1
0 2022-10-11 02:18:17

DQN 不收斂

問題描述

1 個解決方案

解決方案1 0 2022-10-11 02:18:17

解決方案1
0 2022-10-11 02:18:17