AlphaGo Zero三天击败旧版本比战胜柯洁还厉害的AlphaGo来了

采编：hyt15 来源：凤凰发布时间：2017-10-19 14:18:00

AlphaGo Zero的强化学习

上面提到AlphaGo使用了一个神经网络，这是怎么做到的?

DeepMind使用了一个新的神经网络fθ，θ是参数。这个神经网络将原始棋盘表征s(落子位置和过程)作为输入，输出落子概率(p, v)= fθ(s)。这里的落子概率向量p表示下一步的概率，而v是一个标量估值，衡量当前落子位置s获胜的概率。

这个神经网络把之前AlphaGo所使用的策略网络和价值网络，整合成一个单独的架构。其中包含很多基于卷积神经网络的残差模块。

AlphaGo Zero的神经网络，使用新的强化学习算法，自我对弈进行训练。在每个落子位置s，神经网络fθ指导进行MCTS(蒙特卡洛树)搜索。MCTS搜索给出每一步的落子概率π。通常这种方式会选出更有效的落子方式。

因此，MCTS可以被看作是一个强大的策略提升operator。这个系统通过搜索进行自我对弈，使用增强的MCTS策略决定如何落子，然后把获胜z作为价值样本。

这个强化学习算法的主要理念，实在策略迭代过程中，反复使用这些这些搜索operator：神经网络的参数不断更新，让落子概率和价值(P,v)=fθ(s)越来越接近改善后的搜索概率和自我对弈赢家(π, z)。这些新参数也被用于下一次的自我对弈迭代，让搜索变得更强大。整个过程如下图所示。

上图解释了AlphaGo Zero中的自我对弈强化学习。图a展示了程序的自我对弈过程。程序在从s1到st的棋局中进行自我对弈，在任意位置st，程序会用最新的神经网络fθ来执行MCTS αθ，根据MCTS计算出的搜索概率at∼πt选择落子位置，根据游戏规则来决定最终位置sT，并计算出胜者z。

图b展示了AlphaGo Zero中的神经网络训练过程，神经网络以棋盘位置st为输入，将它和参数θ通过多层CNN传递，输出向量Pt和张量值vt，Pt表示几步之后可能的局面，vt表示st位置上当前玩家的胜率。为了将Pt和搜索概率πt的相似度最大化，并最小化vt和游戏实际胜者z之间的误差，神经网络的参数θ会不断更新，更新后的参数会用到如图a所示的下一次自我对弈迭代中。

AlpaGo Zero中的MCTS结构如上图所示，从图a显示的选择步骤可以看出，每次模拟都会通过选择最大行为价值Q的边缘，加上置信区间上限U来遍历树，U取决于存储先验概率P和访问次数N。

图b显示，叶节点扩展和相关位置s的评估都是通过神经网络(P(s, ·)，V(s)) = fθ(s)实现的，P的向量值存储在s的出口边缘。

关闭

上一页 1 2 3 4 5 下一页

金鸡奖：“最帅反派”谢霆锋落选，张小斐穿“红袜”带来鸿运

黄一山揭74岁高雄曾批评同剧演员，赞对方为人正气，遗憾从未合作

莫名其妙发烧，又凭空消失，《王牌部队》肖战戏份疑似被剪，实惨

46岁董卿现身会议显疲惫！腰椎疼痛走路缓慢，头发凌乱衬衫褶皱多

接连离巢！TVB新闻首席主播悄然离巢，结束6年新闻主播生涯

51岁咏梅罕晒近况！穿着朴素扎俏皮丸子头，发际线高额角秃一块

好莱坞72岁女星新作赤身出镜遭小李子反对，导演：最后用了替身

巨石再次确认不回归《速激10》，叫板范老大：别再消费保罗·沃克

年度终极盘点！2021年近70位明星翻车：8人违法乱纪，4人隐婚隐育

66岁陈道明给青年演员讲话！称干这行少染毛病，一众大牌立正鞠躬

去陌生人家里拍摄是一种什么样的体验？这部日综太暖了！

张庭、林瑞阳人生中的3次“暗度陈仓”

赵丽颖晒照优雅迷人似少女，认真研读剧本受期待，力破发福传闻

张小斐张译荣获金鸡奖影后影帝，于和伟张子枫落选，刘浩存陪跑

当年的人们为什么沉迷“小品”

前瞻｜14台“跨晚”火拼！台网平台年度终极一战，谁能跨出新气象？

演员孙俪：大女主光环之外的世界丨抉择2021

涂松岩谈起儿子激动落泪！41岁得子把他宠上天，连保姆都不想请

跨年晚会超十档，央卫视进行大比拼

15岁黄多多染发后首晒自拍！穿白衬衫涂大红唇，眼神犀利变化太大

朱媛媛获金鸡奖最佳女配！贫嘴张大民的媳妇，在事业巅峰曾拒演潜伏

成为蜘蛛侠意味着什么？《蜘蛛侠：英雄无归》核心探讨

王牌部队：9年前的娘娘腔，如今变硬汉团长，肖战“与狼共舞”了

74岁施瓦辛格和妻子完成离婚！25年婚姻正式完结，离婚用了10年

8.3分爆火，它拍出了聪明女人恋爱该有的样子

《小虎墩大英雄》曝角色海报与超萌虎娃齐闹新春

春节档动画电影《小虎墩大英雄》将于虎年大年初一正式上映。全新发...

《扑通扑通的水球少年》开机王皓轩演绎天才少年白浪

近日，由青年导演徐翔云执导，王皓轩、侯拂明、薛泽源、刘若嫣等主...

《爱情神话》十大彩蛋首度揭秘塑造人间烟火

由徐峥监制，邵艺辉编剧、导演，徐峥、马伊琍、吴越、倪虹洁、周野...

热依扎短发造型曝光旗袍显清丽古典美

12月29日消息，热依扎分享活动造型，短发旗袍显出清丽古典美。

王嘉尔开年封嘎嘎野得性感又纯粹

12月29日，王嘉尔成为《时尚芭莎》2022年开年封封面人物大片发布，...

《狙击手》张译三度合作张艺谋大年初一上映

12月29日，电影《狙击手》官方发布首支预告片。影片主要讲述朝鲜战...

《李茂扮太子》预售过千万马丽常远与你“美丽常伴”

由高可执导并编剧，马丽、常远、艾伦等主演的开年喜剧电影《李茂扮...

《小虎墩大英雄》曝角色海报与超萌虎娃齐闹新春

春节档动画电影《小虎墩大英雄》将于虎年大年初一正式上映。全新发...

《风起洛阳》刘梦珂精彩演绎“圣人首席大助”焕相boss

热播剧《风起洛阳》将在本周迎来收官，在剧中饰演内舍人焕相的刘梦...

宋茜《风起洛阳》会员收官 BE结局赚足观众眼泪

由爱奇艺、留白影视联合出品，宋茜领衔主演的古装悬疑剧《风起洛阳...

《扑通扑通的水球少年》开机王皓轩演绎天才少年白浪

近日，由青年导演徐翔云执导，王皓轩、侯拂明、薛泽源、刘若嫣等主...

陈依琪《输赢》高情商卖鞋神操作攻破辛芷蕾

最近一部《输赢》真实生动的描绘了销售战场上的合作与厮杀，吸引了...

金鸡奖：“最帅反派”谢霆锋落选，张小斐穿“红袜”带来鸿运

迎来40周年生日的第34届金鸡奖落下了帷幕，各大奖项纷纷揭晓的同时...

黄一山揭74岁高雄曾批评同剧演员，赞对方为人正气，遗憾从未合作

香港艺人黄一山如今在内地发展得风生水起，除了拍戏之外，还很喜欢...

莫名其妙发烧，又凭空消失，《王牌部队》肖战戏份疑似被剪，实惨

《王牌部队》成了江苏卫视年末的“救命稻草”，剧作上线之后稳稳地...

46岁董卿现身会议显疲惫！腰椎疼痛走路缓慢，头发凌乱衬衫褶皱多

近日，有网友曝光了著名主持人董卿参加某会议的一段视频，引起网友...

接连离巢！TVB新闻首席主播悄然离巢，结束6年新闻主播生涯

无线（TVB）新闻部今年接连有不少主播离职，继前主播王俊彦（Chris...

51岁咏梅罕晒近况！穿着朴素扎俏皮丸子头，发际线高额角秃一块

近日，知名演员咏梅在社交平台上晒出一则自己工作杀青的视频。视频...

新闻图集

《风起洛阳》刘梦珂精彩演绎“圣人首席大助”焕相boss

《风起洛阳》刘梦珂精彩演绎“圣人首席大助”焕相boss

宋茜《风起洛阳》会员收官 BE结局赚足观众眼泪

宋茜《风起洛阳》会员收官 BE结局赚足观众眼泪

陈依琪《输赢》高情商卖鞋神操作攻破辛芷蕾

陈依琪《输赢》高情商卖鞋神操作攻破辛芷蕾

《人世间》亮相雷佳音辛柏青宋佳演绎百姓奋斗史

《人世间》亮相雷佳音辛柏青宋佳演绎百姓奋斗史

关晓彤大片来袭黑色亮片裙性感美丽

关晓彤大片来袭黑色亮片裙性感美丽

爱情电影《好想去你的世界爱你》周依然施柏宇约定情人节

爱情电影《好想去你的世界爱你》周依然施柏宇约定情人节

杨幂陈伟霆《斛珠夫人》格局“添彩”融大义国风增色

杨幂陈伟霆《斛珠夫人》格局“添彩”融大义国风增色

《雪中悍刀行》的几个亿究竟花哪了？宣传营销上？

《雪中悍刀行》的几个亿究竟花哪了？宣传营销上？

《输赢》：对手变爱人情感陷入传统套路

《输赢》：对手变爱人情感陷入传统套路

风起洛阳永川郡主扮演者是谁？是幕后隐藏大头领

风起洛阳永川郡主扮演者是谁？是幕后隐藏大头领

徐璐前男友有哪些？因张铭恩出轨分手

徐璐前男友有哪些？因张铭恩出轨分手

崔航的老婆是谁？出演过《四千金》《不能错过》等

崔航的老婆是谁？出演过《四千金》《不能错过》等