网页
资讯
视频
图片
知道
文库
贴吧
地图
采购
进入贴吧
全吧搜索
吧内搜索
搜贴
搜人
进吧
搜标签
日
一
二
三
四
五
六
签到排名:今日本吧第
个签到,
本吧因你更精彩,明天继续来努力!
本吧签到人数:0
一键签到
成为超级会员,使用一键签到
一键签到
本月漏签
0
次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行
补签
。
连续签到:
天 累计签到:
天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
02月20日
漏签
0
天
python吧
关注:
471,278
贴子:
1,957,665
看贴
图片
吧主推荐
视频
游戏
24
回复贴,共
1
页
<<返回python吧
>0< 加载中...
使用强化学习的五子棋AI,结合深度学习和蒙特卡洛树训练
只看楼主
收藏
回复
阿布阿奇
贡士
6
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
借助阿尔法zero的思想,AI通过自我对弈进行不断的进步和学习,最终成长为一个强大的AI。目前是对弈了一百多局的,仍然不太聪明,还没学会怎么拦截和防守。帖子会持续记录后续的进展,以及未来会不会进步。看看最终能不能成长为高手水平的AI。#机器学习# #AI#
阿布阿奇
贡士
6
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
之前的剪枝力度太大了,模型策略过于简单,我怕这些对未来有影响,然后我把模型文件删了,重新训练了。
现在只进行轻度的剪枝,期望未来有更好的表现。
阿布阿奇
贡士
6
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
增加了批量局面处理,下棋推理速度明显变快了。然后我增加了蒙特卡洛树的模拟次数和模型的复杂度
qianqianchilde
白丁
1
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
有git仓库吗?我想看看
阿布阿奇
贡士
6
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
目前AI总是往上面一行行的下棋,这正常吗?还是刚开始从0开始训练的AI都这样。我调整了探索率和位置打乱概率,让AI能尽量探索整个棋盘。怕他学到这些没用的地方。
qianqianchilde
白丁
1
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
发下源码嘛,我想看看楼主怎么写的,能不能改进
bcg0110001
秀才
3
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
强啊
阿布阿奇
贡士
6
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
改成中文界面了,并且将奖惩机制改为累计,并加入折扣因子。还有一些其他的优化和修改。不过AI还是不聪明,两百局对弈效果不怎么样。可能要上千局才达到一定水平。
@𝙿𝚢Py水晶兰
榜眼
12
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
是个大佬
带我?
阿布阿奇
贡士
6
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
又重新训练了,模型架构重写了。
理论上表现会更好。但是目前策略网络现在分布比较均匀,损失比较低。
阿布阿奇
贡士
6
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
已搜索到42个网页>
贡士
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
楼主用手机训练的?
阿布阿奇
贡士
6
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
策略损失一直为零,模型找到捷径了。我改了一下,使用了启发式来生成不同的数据给他训练打破僵局。
ghchgbj
童生
2
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
楼主用的是什么模型训练的
贴吧用户_0ZS742Q
贡士
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
其实五子棋用α-β搜索算法就足够了。
登录百度账号
扫二维码下载贴吧客户端
下载贴吧APP
看高清直播、视频!
贴吧页面意见反馈
违规贴吧举报反馈通道
贴吧违规信息处理公示