深度 Q 學習的輸入狀態

Question

我使用 DQN 進行資源分配，其中代理應將到達請求分配給最佳虛擬機。 我正在修改 Cartpole 代碼如下：

import random
import gym
import numpy as np
from collections import deque
from keras.models import Sequential
from keras.layers import Dense
from keras.optimizers import Adam
import os 

class DQNAgent:
    def __init__(self, state_size, action_size):
        self.state_size = state_size
        self.action_size = action_size
        self.memory = deque(maxlen=2000)
        self.gamma = 0.95 
        self.epsilon = 1.0 
        self.epsilon_decay = 0.995 
        self.epsilon_min = 0.01 
        self.learning_rate = 0.001 
        self.model = self._build_model()
    
    def _build_model(self):
        model = Sequential()
        model.add(Dense(24, input_dim=self.state_size, activation='relu')) 
        model.add(Dense(24, activation='relu')) 
        model.add(Dense(self.action_size, activation='linear')) 
        model.compile(loss='mse', optimizer=Adam(lr=self.learning_rate))
        return model
    
    def remember(self, state, action, reward, next_state, done):
        self.memory.append((state, action, reward, next_state, done)) 

    def act(self, state):
        if np.random.rand() <= self.epsilon: 
            return random.randrange(self.action_size)
        act_values = self.model.predict(state) 
        return np.argmax(act_values[0])

    def replay(self, batch_size):
        minibatch = random.sample(self.memory, batch_size) 
        for state, action, reward, next_state, done in minibatch: 
            target = reward 
            if not done: 
                target = (reward + self.gamma * np.amax(self.model.predict(next_state)[0])) 
            target_f = self.model.predict(state) 
            target_f[0][action] = target
            self.model.fit(state, target_f, epochs=1, verbose=0)

        if self.epsilon > self.epsilon_min:
            self.epsilon *= self.epsilon_decay

    def load(self, name):
        self.model.load_weights(name)

    def save(self, name):
        self.model.save_weights(name)

作為 Q 網絡輸入的 Cartpole 狀態由環境給出。

0   Cart Position
1   Cart Velocity       -Inf    Inf
2   Pole Angle          ~ -41.8°    ~ 41.8°
3   Pole Velocity At Tip

問題是在我的代碼中 Q 網絡的輸入是什么？ 因為代理應該根據到達請求的大小采取最好的行動，但這不是由環境給出的。 我應該通過這個輸入值，大小來饋送 Q 網絡嗎？

Answer 1

Deep Q-Network 架構的輸入由重放內存提供，在代碼的以下部分：

def remember(self, state, action, reward, next_state, done):
    self.memory.append((state, action, reward, next_state, done))

如原始論文Deepmind 論文所示，該系統的動態是您與系統交互，將轉換存儲在重放內存中，然后將其用於訓練步驟。 在上面的幾行中，您存儲了這些經驗。

基本上，網絡的輸入是狀態並輸出 Q 值。 在您的代碼中，沒有與環境的交互，那時您可以獲得這些轉換（體驗）來提供重放記憶。 因此，如果您無法提取環境中的某些信息以表示為狀態，則您無法對此做出假設。

深度 Q 學習的輸入狀態

問題描述

1 個解決方案

解決方案1
1 2020-10-08 13:39:50

深度 Q 學習的輸入狀態

問題描述

1 個解決方案

解決方案1 1 2020-10-08 13:39:50

解決方案1
1 2020-10-08 13:39:50