簡體 English 中英

為 Snake AI 代理選擇神經網絡架構

[英]Choosing a neural network architecture for Snake AI Agent

原文 2022-09-21 14:37:25 4 1 python/ tensorflow/ neural-network/ pytorch/ reinforcement-learning

我是機器學習和強化學習的新手，我正在嘗試創建一個學習玩 Snake 的 AI 代理。 我在選擇/開發可以與我的輸入/output 向量形狀配合使用的神經網絡架構時遇到問題。

我的輸入是一個 3x10x10 的張量，基本上是 3 層 10x10 網格，蛇在上面移動（我在整個張量中只使用 0 和 1，在第一層標記蛇身體部位的 position，在第二層標記蘋果的 Z4757FE07FD492A8BE0EA6A760D683D6 ，和蛇頭position 3號）。

對於我的 output，我正在尋找一個包含 4 個值的向量，對應於玩家可用的 4 個可能的移動（將方向更改為上/下/左/右）。

我將不勝感激有關如何在這種情況下選擇架構的 go 的任何建議，以及有關我選擇將游戲 state 編碼為輸入向量以供代理訓練的方式的任何想法。

1 個解決方案

你可以在一開始就使用 ResNet 架構，看看會發生什么。 基本上，ResNet 將形狀為 HxWxC 的圖像作為輸入，其中 H 高度、W 寬度、C 通道。 在您的情況下，您沒有實際圖像，但您仍然在 3 個通道中對環境進行編碼，HxW=10x10。 所以，我認為你的編碼應該可以工作。

然后您還必須更改 ResNet 的 output 以便您將僅 output 4 個值，每個值將對應一個操作。

鑒於輸入空間不是很大，也許你可以從一個非常小的 ResNet 18 開始，看看會發生什么。 鑒於您是 ML 和 RL 的新手，有一篇非常古老的論文試圖使用深度學習https://arxiv.org/pdf/1312.5602v1.pdf來解決 Atari 游戲，而且該方法並不難理解。 Snake 是一款與 Atari 游戲具有相似（甚至更低）復雜性的游戲，因此本文可能會提供更多見解。

可視化神經網絡架構

[英]Visualizing Neural Network Architecture

神經網絡架構學習功能

[英]Neural Network architecture to learn function

什么神經網絡用於AI鼠標移動

[英]What Neural Network to use for AI Mouse Movement

遺傳算法/w 神經網絡玩蛇沒有改進

[英]Genetic algorithm /w Neural Network playing snake is not improving

神經網絡首先找到最佳的超電流計或架構

[英]neural network find best hyperameters or architecture first

用於多輸出分類的神經網絡架構

[英]Neural network architecture for multi-output classification

如何用Keras可視化神經網絡架構？

[英]How can a neural network architecture be visualized with Keras?

級聯神經網絡架構和輸入使用 TensorFlow

[英]Cascaded Neural Network architecture and input using TensorFlow

是否可以使用神經網絡/人工智能來“優化”比賽時間？

[英]Would it be possible to use a Neural Network / AI to 'optimise' the time taken for the race?

從神經網絡的不同成本函數和激活函數中選擇

[英]Choosing from different cost function and activation function of a neural network

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 可視化神經網絡架構神經網絡架構學習功能什么神經網絡用於AI鼠標移動遺傳算法/w 神經網絡玩蛇沒有改進神經網絡首先找到最佳的超電流計或架構用於多輸出分類的神經網絡架構如何用Keras可視化神經網絡架構？級聯神經網絡架構和輸入使用 TensorFlow 是否可以使用神經網絡/人工智能來“優化”比賽時間？從神經網絡的不同成本函數和激活函數中選擇

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM