使用强化学习的五子棋AI，结合深度学习和蒙特卡洛树训练

借助阿尔法zero的思想，AI通过自我对弈进行不断的进步和学习，最终成长为一个强大的AI。目前是对弈了一百多局的，仍然不太聪明，还没学会怎么拦截和防守。帖子会持续记录后续的进展，以及未来会不会进步。看看最终能不能成长为高手水平的AI。#机器学习# #AI#

之前的剪枝力度太大了，模型策略过于简单，我怕这些对未来有影响，然后我把模型文件删了，重新训练了。

现在只进行轻度的剪枝，期望未来有更好的表现。

增加了批量局面处理，下棋推理速度明显变快了。然后我增加了蒙特卡洛树的模拟次数和模型的复杂度

有git仓库吗？我想看看

目前AI总是往上面一行行的下棋，这正常吗？还是刚开始从0开始训练的AI都这样。我调整了探索率和位置打乱概率，让AI能尽量探索整个棋盘。怕他学到这些没用的地方。

发下源码嘛，我想看看楼主怎么写的，能不能改进

强啊

改成中文界面了，并且将奖惩机制改为累计，并加入折扣因子。还有一些其他的优化和修改。不过AI还是不聪明，两百局对弈效果不怎么样。可能要上千局才达到一定水平。

是个大佬

带我？

又重新训练了，模型架构重写了。

理论上表现会更好。但是目前策略网络现在分布比较均匀，损失比较低。

楼主用手机训练的？

策略损失一直为零，模型找到捷径了。我改了一下，使用了启发式来生成不同的数据给他训练打破僵局。

楼主用的是什么模型训练的

其实五子棋用α-β搜索算法就足够了。

下载贴吧APP
看高清直播、视频！

分享到: