[英]Output of Artificial Neural Network in Othello
它非常简单:神经网络是一个价值网络(而不是政策网络)。 此价值网络将董事会状态作为输入,并计算一些描述该职位有多好的分数。 它是所有基于MinMax的游戏AI的基本构建块,通常称为评估功能。 (策略网络输出将给出所有可能移动的概率分布)。
所以NN给你这个分数。 然后,您可以将此分数与某些选择的算法结合起来。 MinMax(几乎所有的Chess-AIs),MCTS(AlphaGo)是最常见的。
MinMax的基本思想:发挥作用,oponnent播放移动,...,...,用您的NN评估 - >为所有可能的组合执行此操作并使用MinMax规则进行传播。 这个NN只能进行几次(半移动)。 但它对奥赛罗来说非常强大,并且易于实施。
MCTS的基本思想:玩随机移动,玩随机移动,......直到获胜者 - >构建赢家统计。 现在比较所有可能的“第一”动作的平均分数。 选择最好。 更难以将NN作为启发式算法。
您提到的计算只是神经网络中的经典规则,用于定义激活和密集层。
我没有读过这篇论文,但是很难训练和准备你的NN。 您需要提供一些数据。 也许它会受到监督(如果你有历史游戏;更容易),也许是无人监督(Q-learning and co。)。 没有经验,这将很难做到。
我认为我知道所需的所有理论,但我仍然没有用其他(随机)游戏做到这一点,因为自相关和co有很多问题。 还需要进行大量的超参数调整。
这个项目有点复杂,有很多陷阱。 请确保您了解您想要尝试的内容。 它看起来很像你缺少基础知识。 博弈论(Min-max),AI /学习理论(MCTS,Markov-Decision-Processes,Q-Learning ...),NN(NN的基本内部)。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.