繁体   English   中英

奥赛罗人工神经网络的输出

[英]Output of Artificial Neural Network in Othello

我正在使用人工神经网络实现奥赛罗。 当我阅读文档( 这里 ,第19页)时,我不明白一些观点。 他们计算输出: 图像我不知道他们是否计算出来,我的AI如何知道游戏中的合法行为选择最佳法律行动。 那输出只是一个浮点数(我想是这样)以及如何使用它?

好消息

它非常简单:神经网络是一个价值网络(而不是政策网络)。 此价值网络将董事会状态作为输入,并计算一些描述该职位有多好的分数。 它是所有基于MinMax的游戏AI的基本构建块,通常称为评估功能。 (策略网络输出将给出所有可能移动的概率分布)。

所以NN给你这个分数。 然后,您可以将此分数与某些选择的算法结合起来。 MinMax(几乎所有的Chess-AIs),MCTS(AlphaGo)是最常见的。

MinMax的基本思想:发挥作用,oponnent播放移动,...,...,用您的NN评估 - >为所有可能的组合执行此操作并使用MinMax规则进行传播。 这个NN只能进行几次(半移动)。 但它对奥赛罗来说非常强大,并且易于实施。

MCTS的基本思想:玩随机移动,玩随机移动,......直到获胜者 - >构建赢家统计。 现在比较所有可能的“第一”动作的平均分数。 选择最好。 更难以将NN作为启发式算法。

您提到的计算只是神经网络中的经典规则,用于定义激活和密集层。

坏消息

我没有读过这篇论文,但是很难训练和准备你的NN。 您需要提供一些数据。 也许它会受到监督(如果你有历史游戏;更容易),也许是无人监督(Q-learning and co。)。 没有经验,这将很难做到。

我认为我知道所需的所有理论,但我仍然没有用其他(随机)游戏做到这一点,因为自相关和co有很多问题。 还需要进行大量的超参数调整。

结论

这个项目有点复杂,有很多陷阱。 请确保您了解您想要尝试的内容。 它看起来很像你缺少基础知识。 博弈论(Min-max),AI /学习理论(MCTS,Markov-Decision-Processes,Q-Learning ...),NN(NN的基本内部)。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM