繁体   English   中英

在 a3c 强化学习中,从 -5000 到 5000 的 12 个输入需要多深的神经网络

[英]How much deep a Neural Network Required for 12 inputs of ranging from -5000 to 5000 in a3c Reinforcement Learning

我正在尝试将 A3C 与 LSTM 用于状态有 12 个输入范围从 -5000 到 5000 的环境。我使用大小为 12 的 LSTM 层,然后使用 2 个大小为 256 的完全连接的隐藏层,然后 1 fc 用于 3 个动作暗淡和 1 fc 对应 1 个值 function。 奖励在 (-1,1) 范围内。

然而,在最初的训练中,我无法获得好的结果。

我的问题是——这个神经网络对于这种环境是否足够好。

下面是 Actor Critic 的代码

class ActorCritic(torch.nn.Module):

    def __init__(self, params):
        super(ActorCritic, self).__init__()

        self.state_dim = params.state_dim
        self.action_space = params.action_dim
        self.hidden_size = params.hidden_size
        state_dim = params.state_dim
        self.lstm = nn.LSTMCell(state_dim, state_dim)
        self.lstm.bias_ih.data.fill_(0)
        self.lstm.bias_hh.data.fill_(0)
        lst = [state_dim]
        for i in range(params.layers):
            lst.append(params.hidden_size)
        
        self.hidden = nn.ModuleList()
        for k in range(len(lst)-1):
            self.hidden.append(nn.Linear(lst[k], lst[k+1]))
        for layer in self.hidden:
            layer.apply(init_weights)

        self.critic_linear = nn.Linear(params.hidden_size, 1)
        self.critic_linear.apply(init_weights)
        self.actor_linear = nn.Linear(params.hidden_size, self.action_space)
        self.actor_linear.apply(init_weights)
        self.train()

    def forward(self, inputs):
        inputs, (hx, cx) = inputs
        inputs = inputs.reshape(1,-1)
        hx, cx = self.lstm(inputs, (hx, cx))
        x = hx
        for layer in self.hidden:
            x = torch.tanh(layer(x))
        return self.critic_linear(x), self.actor_linear(x), (hx, cx)

class Params():
    def __init__(self):
        self.lr = 0.0001
        self.gamma = 0.99
        self.tau = 1.
        self.num_processes = os.cpu_count()
        self.state_dim = 12
        self.action_dim = 3
        self.hidden_size = 256
        self.layers = 2
        self.epochs = 10
        self.lstm_layers = 1
        self.lstm_size = self.state_dim
        self.num_steps = 20
        self.window = 50

由于您有 12 个输入,因此请确保不要使用太多参数,还请尝试更改激活 function。 我不使用 Torch,所以我无法理解 model 架构。 为什么你的第一层是 LSTM? 你的数据是时间序列吗? 尝试只使用密集层,

  • 1 仅具有 12 个神经元和 output 层的密集
  • 2 个密集层,每个层有 12 个神经元和 output 层

至于激活 function 使用leaky relu,因为您的数据是-5000,或者您可以通过将5000添加到所有数据样本来使您的数据为正。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM