簡體 English 中英

一個簡單游戲的深度強化學習參數和訓練時間

[英]deep reinforcement learning parameters and training time for a simple game

原文 2017-10-27 16:51:15 3 1 machine-learning/ neural-network/ artificial-intelligence/ reinforcement-learning/ pytorch

我想了解深度強化算法的工作原理以及在任何給定環境下訓練自己需要多長時間。 我想出了一個非常簡單的環境示例：

有一個計數器保存 0 到 100 之間的整數。計數到 100 是它的目標。

有一個參數direction其值可以是 +1 或 -1。 它只是顯示移動的方向。

out 神經網絡將此方向作為輸入，將 2 個可能的動作作為輸出。

改變方向
不要改變方向

第一個動作將簡單地翻轉方向（+1 => -1 或 -1 =>+1）。 第二個動作將保持方向不變。

我在后端使用 python，前端使用 javascript。 這似乎花費了太多時間，但它仍然是非常隨機的。 我使用了 4 層感知器。 0.001 的訓練率。 批量 100 的記憶學習。代碼是 Udemy 人工智能教程，工作正常。

我的問題是，完成和每個狀態的獎勵應該是什么？ 像那樣訓練簡單的例子需要多少時間？

1 個解決方案

在強化學習中，下划線的獎勵函數定義了游戲。 不同的獎勵函數導致不同的游戲具有不同的最優策略。

在您的情況下，有幾種不同的可能性：

達到 100 時給予 +1，然后才給予。
為達到 100 給 +1，對於不是 100 的每個時間步長給 -0.001。
上升 +1 表示下降 -1 表示下降。

第三種情況太容易了，沒有涉及長期規划。 在第一種情況下，智能體只有在意外達到 100 並發現它很好時才會開始學習。 但是在第一種情況下，一旦它學會了上升，到達那里需要多長時間都無關緊要。 第二個是最有趣的地方，它需要盡快到達那里。

對於使用什么獎勵沒有正確的答案，但最終你選擇的獎勵決定了你正在玩的游戲。

注意：這個問題的 4 層感知器是Big Time Overkill 。 一層應該就夠了（這個問題很簡單）。 您是否嘗試過OpenAI 健身房的強化學習環境？ 強烈推薦它，它們有所有“經典”強化學習問題。

深度強化學習訓練准確性

[英]Deep Reinforcement Learning Training Accuracy

並行深度強化學習

[英]parallelized deep reinforcement learning

用強化學習訓練神經網絡

[英]Training a Neural Network with Reinforcement learning

強化學習和深度RL有什么區別？

[英]What is the difference between reinforcement learning and deep RL?

如何將 Drake 與深度強化學習一起使用

[英]How to use Drake with deep reinforcement learning

為什么我的 Deep Q Network 沒有學會玩簡單的游戲？

[英]Why is my Deep Q Network not learning to play a simple game?

如何保存經過訓練的強化學習代理以避免每次都對其進行訓練？

[英]How can i save a trained reinforcement learning agent to avoid training it each time?

強化學習迷你高爾夫游戲

[英]reinforcement learning mini-golf game

什么時候需要深層強化學習而不是q學習？

[英]Why and when is deep reinforcement learning needed instead of q-learning?

深度學習與Caffe一起訓練數據集

[英]Deep learning Training dataset with Caffe

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 深度強化學習訓練准確性並行深度強化學習用強化學習訓練神經網絡強化學習和深度RL有什么區別？如何將 Drake 與深度強化學習一起使用為什么我的 Deep Q Network 沒有學會玩簡單的游戲？如何保存經過訓練的強化學習代理以避免每次都對其進行訓練？強化學習迷你高爾夫游戲什么時候需要深層強化學習而不是q學習？深度學習與Caffe一起訓練數據集

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM