AlphaGo Zero三天击败旧版本 比战胜柯洁还厉害的AlphaGo来了

采编:hyt15  来源:凤凰  发布时间:2017-10-19 14:18:00 

图c显示了更新行为价值Q以追踪该行为下面子树中所有评估V的平均值。

图d显示,搜索完成后,搜索概率π返回,与N1/τ成比例,其中N是从根状态每次移动的访问次数,τ是控制温度的参数。

从零开始的训练

DeepMind在论文中表示,应用了强化学习的pipeline来训练AlphaGo Zero,训练从完全随机的行为开始,并在没有认为干预的情况下持续3天。

训练过程中,生成了490万盘自我博弈对局,每个MCTS使用1600次模拟,相当于每下一步思考0.4秒。下图显示了在自我对弈强化学习期间,AlphaGo Zero的表现。整个训练过程中,没有出现震荡或者灾难性遗忘的困扰。

令人惊讶的是,AlphaGo Zero在训练36小时后,表现就优于击败李世乭的版本AlphaGo Lee。当年那个版本经过了数月的训练。AlphaGo Zero使用了4个TPU,而击败李世乭的AlphaGo使用了48个TPU。

下图就是AlphaGo Zero和AlphaGo Lee的神经网络架构比较。

论文全文

论文的共同第一作者是David Silver、Julian Schrittwieser、Karen Simonyan。

关于这篇论文,可以直接从这个地址下载:

https://deepmind.com/documents/119/agz_unformatted_nature.pdf

DeepMind还放出AlphaGo Zero的80局棋谱,下载地址在此:

https://www.nature.com/nature/journal/v550/n7676/extref/nature24270-s2.zip

关闭
金鸡奖:“最帅反派”谢霆锋落选,张小斐穿“红袜”带来鸿运
黄一山揭74岁高雄曾批评同剧演员,赞对方为人正气,遗憾从未合作
莫名其妙发烧,又凭空消失,《王牌部队》肖战戏份疑似被剪,实惨
46岁董卿现身会议显疲惫!腰椎疼痛走路缓慢,头发凌乱衬衫褶皱多
接连离巢!TVB新闻首席主播悄然离巢,结束6年新闻主播生涯
51岁咏梅罕晒近况!穿着朴素扎俏皮丸子头,发际线高额角秃一块
好莱坞72岁女星新作赤身出镜遭小李子反对,导演:最后用了替身
巨石再次确认不回归《速激10》,叫板范老大:别再消费保罗·沃克
年度终极盘点!2021年近70位明星翻车:8人违法乱纪,4人隐婚隐育
66岁陈道明给青年演员讲话!称干这行少染毛病,一众大牌立正鞠躬
去陌生人家里拍摄是一种什么样的体验?这部日综太暖了!
张庭、林瑞阳人生中的3次“暗度陈仓”
赵丽颖晒照优雅迷人似少女,认真研读剧本受期待,力破发福传闻
张小斐张译荣获金鸡奖影后影帝,于和伟张子枫落选,刘浩存陪跑
当年的人们为什么沉迷“小品”
前瞻|14台“跨晚”火拼!台网平台年度终极一战,谁能跨出新气象?
演员孙俪:大女主光环之外的世界丨抉择2021
涂松岩谈起儿子激动落泪!41岁得子把他宠上天,连保姆都不想请
跨年晚会超十档,央卫视进行大比拼
15岁黄多多染发后首晒自拍!穿白衬衫涂大红唇,眼神犀利变化太大
朱媛媛获金鸡奖最佳女配!贫嘴张大民的媳妇,在事业巅峰曾拒演潜伏
成为蜘蛛侠意味着什么?《蜘蛛侠:英雄无归》核心探讨
王牌部队:9年前的娘娘腔,如今变硬汉团长,肖战“与狼共舞”了
74岁施瓦辛格和妻子完成离婚!25年婚姻正式完结,离婚用了10年
8.3分爆火,它拍出了聪明女人恋爱该有的样子