作者最后说:
我来说说训练情况,因为是从白板一块开始训练,刚开始都是乱下,从乱下的经验当中学会下棋是需要大量对弈才行的。解的空间是很稀疏的,相当于100个数据,有99个是负例,只有1个正例。论文中训练了700K次的mini-batch,国际象棋开源项目chess-alpha-zero也训练了10K次。我呢,训练不到4K次,模型刚刚学会用象和士防守,总之仍然下棋很烂。如果您有条件可以再多训练试试,我自从收到信用卡扣款400美元通知以后就把aws下线了:D 贫穷限制了我的想象力O(∩_∩)O
我来说说训练情况,因为是从白板一块开始训练,刚开始都是乱下,从乱下的经验当中学会下棋是需要大量对弈才行的。解的空间是很稀疏的,相当于100个数据,有99个是负例,只有1个正例。论文中训练了700K次的mini-batch,国际象棋开源项目chess-alpha-zero也训练了10K次。我呢,训练不到4K次,模型刚刚学会用象和士防守,总之仍然下棋很烂。如果您有条件可以再多训练试试,我自从收到信用卡扣款400美元通知以后就把aws下线了:D 贫穷限制了我的想象力O(∩_∩)O
