网易首页 > 网易科技 > 正文

深入浅出谷歌人工智能围棋 “大脑”

0
分享至

(原标题:深入浅出谷歌人工智能围棋 “大脑”)

在象棋和国际象棋中,电脑软件都非常厉害,只有围棋是唯一 “电脑下不过人类” 的项目。而今年1月 份有个爆炸性新闻:谷歌 DeepMind 开发的人工智能围棋程序 AlphaGo 以 5:0 的压倒性优势击败了欧洲围棋冠军、专业二段棋手。那么 3月 份 AlphaGo 会和韩国九段、世界冠军李世石进行对弈。如果此役 AlphaGo 获胜,这意味着人工智能真正里程碑式的胜利。

这也引起了笔者好奇心,在春节期间,跟 Facebook 的田渊栋(他的背景无可挑剔,卡耐基梅隆大学机器人系博士,Google X 无人车核心团队,Facebook 人工智能组研究员)交流,他做的也是计算机围棋 AI--黑暗森林(熟悉三体的朋友知道怎么回事),今年1月 份他的文章被机器学习顶级会议 ICLR 2016 接受,(表达学习亦被江湖称作深度学习或者特征学,已经在机器学习社区开辟了自己的江山,成为学术界的一个新宠。)

他聊天中谈到自从谷歌收购了 DeepMind,投入大量资源去做好人工智能项目,不为别的,就是要向世界证明谷歌智能的强大。发表在顶级期刊《Nature》的论文光看作者就 20 个,明显是下了血本,前两位都是计算机围棋界的大牛,一作 David Silver 是计算机围棋和强化学习的顶级专家,整个博士论文就是做的围棋; 二作 Aja Huang 以前写过多年围棋软件,自己又是 AGA 6D 的水平。

还是不多说废话,下面是 SpinPunch CTO 对 AlphaGo 的工作原理解读,原文见参考资料。

------------------

谷歌 DeepMind 宣布他们研发的神经网络围棋 AI,AlphaGo,战胜了人类职业选手。这篇论文由 David Silver 等完成。里面的技术是出于意料的简单却又强大。为了方便不熟悉技术的小白理解,这里是我对系统工作原理的解读。

深度学习

“深度学习” 是指多层的人工神经网络和训练它的方法。一层神经网络会把大量矩阵数字作为输入,通过非线性激活方法取权重,再产生另一个数据集合作为输出。这就像生物神经大脑的工作机理一样,通过合适的矩阵数量,多层组织链接一起,形成神经网络 “大脑” 进行精准复杂的处理,就像人们识别物体标注图片一样。

虽然神经网络在几十年前就有了,直到最近才形势明朗。这是因为他们需要大量的 “训练” 去发现矩阵中的数字价值。对早期研究者来说,想要获得不错效果的最小量训练都远远超过计算能力和能提供的数据的大小。但最近几年,一些能获取海量资源的团队重现挖掘神经网络,就是通过 “大数据” 技术来高效训练。

两个大脑

AlphaGo 是通过两个不同神经网络 “大脑” 合作来改进下棋。这些大脑是多层神经网络跟那些 Google 图片搜索引擎识别图片在结构上是相似的。它们从多层启发式二维过滤器开始,去处理围棋棋盘的定位,就像图片分类器网络处理图片一样。经过过滤,13 个完全连接的神经网络层产生对它们看到的局面判断。这些层能够做分类和逻辑推理。

这些网络通过反复训练来检查结果,再去校对调整参数,去让下次执行更好。这个处理器有大量的随机性元素,所以我们是不可能精确知道网络是如何 “思考” 的,但更多的训练后能让它进化到更好。

第一大脑: 落子选择器 (Move Picker)

AlphaGo 的第一个神经网络大脑是 “监督学习的策略网络 (Policy Network)” ,观察棋盘布局企图找到最佳的下一步。事实上,它预测每一个合法下一步的最佳概率,那么最前面猜测的就是那个概率最高的。你可以理解成 “落子选择器”。

落子选择器是怎么看到棋盘的?数字表示最强人类选手会下在哪些地方的可能。

团队通过在 KGS(网络围棋对战平台)上最强人类对手,百万级的对弈落子去训练大脑。这就是 AlphaGo 最像人的地方,目标是去学习那些顶尖高手的妙手。这个不是为了去下赢,而是去找一个跟人类高手同样的下一步落子。AlphaGo 落子选择器能正确符合 57%的人类高手。(不符合的不是意味着错误,有可能人类自己犯的失误)

更强的落子选择器

AlphaGo 系统事实上需要两个额外落子选择器的大脑。一个是 “强化学习的策略网络(Policy Network)”,通过百万级额外的模拟局来完成。你可以称之为更强的。比起基本的训练,只是教网络去模仿单一人类的落子,高级的训练会与每一个模拟棋局下到底,教网络最可能赢的下一手。Sliver 团队通过更强的落子选择器总结了百万级训练棋局,比他们之前版本又迭代了不少。

单单用这种落子选择器就已经是强大的对手了,可以到业余棋手的水平,或者说跟之前最强的围棋 AI 媲美。这里重点是这种落子选择器不会去 “读”。它就是简单审视从单一棋盘位置,再提出从那个位置分析出来的落子。它不会去模拟任何未来的走法。这展示了简单的深度神经网络学习的力量。

更快的落子选择器

AlphaGo 当然团队没有在这里止步。下面我会阐述是如何将阅读能力赋予 AI 的。为了做到这一点,他们需要更快版本的落子选择器大脑。越强的版本在耗时上越久-为了产生一个不错的落子也足够快了,但 “阅读结构” 需要去检查几千种落子可能性才能做决定。

Silver 团队建立简单的落子选择器去做出 “快速阅读” 的版本,他们称之为 “滚动网络”。简单版本是不会看整个 19*19 的棋盘,但会在对手之前下的和新下的棋子中考虑,观察一个更小的窗口。去掉部分落子选择器大脑会损失一些实力,但轻量级版本能够比之前快 1000 倍,这让 “阅读结构” 成了可能。

第二大脑:棋局评估器 (Position Evaluator)

AlphaGo 的第二个大脑相对于落子选择器是回答另一个问题。不是去猜测具体下一步,它预测每一个棋手赢棋的可能,在给定棋子位置情况下。这 “局面评估器” 就是论文中提到的 “价值网络(Value Network)”,通过整体局面判断来辅助落子选择器。这个判断仅仅是大概的,但对于阅读速度提高很有帮助。通过分类潜在的未来局面的 “好” 与 “坏”,AlphaGo 能够决定是否通过特殊变种去深入阅读。如果局面评估器说这个特殊变种不行,那么 AI 就跳过阅读在这一条线上的任何更多落子。

局面评估器是怎么看这个棋盘的。深蓝色表示下一步有利于赢棋的位置。

局面评估器也通过百万级别的棋局做训练。Silver 团队通过 复制两个 AlphaGo 的最强落子选择器,精心挑选随机样本创造了这些局面。这里 AI 落子选择器在高效创建大规模数据集去训练局面评估器是非常有价值的。这种落子选择器让大家去模拟继续往下走的很多可能,从任意给定棋盘局面去猜测大致的双方赢棋概率。而人类的棋局还不够多恐怕难以完成这种训练。

增加阅读

这里做了三个版本的落子选择大脑,加上局面评估大脑,AlphaGo 可以有效去阅读未来走法和步骤了。阅读跟大多数围棋 AI 一样,通过蒙特卡洛树搜索(MCTS)算法来完成。但 AlphaGo 比其他 AI 都要聪明,能够更加智能的猜测哪个变种去探测,需要多深去探测。

蒙特卡洛树搜索算法

如果拥有无限的计算能力,MCTS 可以理论上去计算最佳落子通过探索每一局的可能步骤。但未来走法的搜索空间对于围棋来说太大了(大到比我们认知宇宙里的粒子还多),实际上 AI 没有办法探索每一个可能的变种。MCTS 做法比其他 AI 有多好的原因是在识别有利的变种,这样可以跳过一些不利的。

Silver 团队让 AlphaGo 装上 MCTS 系统的模块,这种框架让设计者去嵌入不同的功能去评估变种。最后马力全开的 AlphaGo 系统按如下方式使用了所有这些大脑。

1. 从当前的棋盘布局,选择哪些下一步的可能性。他们用基础的落子选择器大脑(他们尝试使用更强的版本,但事实上让 AlphaGo 更弱,因为这没有让 MCTS 提供更广阔的选择空间)。它集中在 “明显最好” 的落子而不是阅读很多,而不是再去选择也许对后来有利的下法。

2. 对于每一个可能的落子,评估质量有两种方式:要么用棋盘上局面评估器在落子后,要么运行更深入蒙特卡罗模拟器(滚动)去思考未来的落子,使用快速阅读的落子选择器去提高搜索速度。AlphaGo 使用简单参数,“混合相关系数”,将每一个猜测取权重。最大马力的 AlphaGo 使用 50/50 的混合比,使用局面评估器和模拟化滚动去做平衡判断。

这篇论文包含一个随着他们使用插件的不同,AlphaGo 的能力变化和上述步骤的模拟。仅使用独立大脑,AlphaGo 跟最好的计算机围棋 AI 差不多强,但当使用这些综合手段,就可能到达职业人类选手水平。

AlphaGo 的能力变化与 MCTS 的插件是否使用有关。

这篇论文还详细讲了一些工程优化:分布式计算,网络计算机去提升 MCTS 速度,但这些都没有改变基础算法。这些算法部中分精确,部分近似。在特别情况下,AlphaGo 通过更强的计算能力变的更强,但计算单元的提升率随着性能变强而减缓。

优势和劣势

我认为 AlphaGo 在小规模战术上会非常厉害。它知道通过很多位置和类型找到人类最好的下法,所以不会在给定小范围的战术条件下犯明显错误。

但是,AlphaGo 有个弱点在全局判断上。它看到棋盘式通过 5*5 金字塔似的过滤,这样对于集成战术小块变成战略整体上带来麻烦,同样道理,图片分类神经网络往往对包含一个东西和另一个的搞不清。比如说围棋在角落上一个定式造成一个墙或者引征,这会剧烈改变另一个角上的位置估值。

就像其他的基于 MCTS 的 AI, AlphaGo 对于需要很深入阅读才能解决的大势判断上,还是麻烦重重的,比如说大龙生死劫。AlphaGo 对一些故意看起来正常的局也会失去判断,天元开盘或者少见的定式,因为很多训练是基于人类的棋局库。

我还是很期待看到 AlphaGo 和李世石 9 段的对决!我预测是:如果李使用直(straight)式,就像跟其他职业棋手的对决,他可能会输,但如果他让 AlphaGo 陷入到不熟悉的战略情形下,他可能就赢。

-------------------

原文结束分割线,下面是董老师抒情咏叹调:)

这里我还想到另一个人,中国最强大脑选手鲍橒,当时看了他走出蜂巢迷宫,被他的超强的空间记忆和想象能力深深震撼了,而他的职业就是围棋选手,并且是盲棋。他能完成 1 对 5 的围棋盲棋,实在是很不可思议的事情。在围棋圈内,几乎没有棋手能完成盲棋,因为确实太难了。笔者也向他询问了对这个事情看法,他说,欧洲冠军没能摸到程序的底,但从棋谱来说,对谷歌程序我也难以取胜,确实下的不错。虽然围棋圈一致看好李世石,不过我不敢确定谷歌的程序 3月 份进展到什么地步。

再说到 Facebook 田博士,跟谷歌 DeepMind 超豪华团队长期投入不同,他就在半年多前从立项到实现,直到最近才有一个实习生加入帮他,而背后是他付出的心血,为了抢时间,在圣诞新年都是加班加点,按他所说,每日工作 10+小时,自己搭机器,写代码,调参数,单枪匹马做出成绩。

谈到跟谷歌团队的较量,田博士说:“这是一场必败的战斗”,但我还是很佩服他,他让我想到三国时代赵子龙,单枪匹马大战曹军,力拔山兮气盖世!因为他是真正的勇士。正是有了这些英勇无畏的科学家,一次次打破常规,挑战极限,我们才知道人类如此大的潜力。最近短短几年的发展,从大数据,深度学习人工智能到虚拟现实,从发现了类地球行星,证实引力波,从 Hyperloop,无人驾驶,量子计算,这些魅力无穷的科技让我们对世界的认识上升到新的高度。面对这个激动人心的时代,我想说,天空是我们的极限,宇宙是我们的极限,未来才是我们的极限!

最后允许我拿田博士的话来结束。

我有时候会问自己:“我是不是背弃了梦想?” 我想除了我自己,任何人都不会给我答案,任何评论也不具效力。我记得有人问过,如果梦想从践行的一开始,就在不自觉地向现实妥协,那样的梦想还是最初的梦想么?其实,这样的问题没什么可纠结的,因为世界从来就不是二元的,梦想和现实,如同高悬的日月,日月 之间,有一条灰色的路,在自己脚下蜿蜒曲折,绕过各种险阻,一直向前。

“而我能做的,只是要在奔跑时,不停提醒自己,还记得 “梦想” 这个词的含义。”

参考资料

  • How AlphaGo works http://www.dcine.com/2016/01/28/alphago/

  • Nature 论文:http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html

  • 关于 AlphaGo 论文的阅读笔记 http://36kr.com/p/5042969.html

  • 关于围棋 AI 的新思路 http://zhuanlan.zhihu.com/yuandong/20364622

原创文章,作者:董老师,如若转载,请注明出处:http://36kr.com/p/5043561.html

“看完这篇还不够?如果你也在创业,并且希望自己的项目被报道,请戳这里告诉我们!”

相关推荐
热点推荐
李宇春被妈妈捉去油菜地里拍照,这哪像40岁的人?这像14

李宇春被妈妈捉去油菜地里拍照,这哪像40岁的人?这像14

静静时光
2024-03-28 19:19:40
58岁港星黎明诗去世,死因公开引热议,曾公开承认同性恋

58岁港星黎明诗去世,死因公开引热议,曾公开承认同性恋

180°视角
2024-03-28 15:36:28
郎平夫妇和友人聚餐,63岁郎平染红发变美,和老公定居美国住别墅

郎平夫妇和友人聚餐,63岁郎平染红发变美,和老公定居美国住别墅

缘木不求娱
2024-03-28 16:33:56
国台办表态后,朱立伦突然出国,港媒爆料:有人要接力马英九访陆

国台办表态后,朱立伦突然出国,港媒爆料:有人要接力马英九访陆

说天说地说实事
2024-03-28 15:11:30
凯特王妃复活节与威廉王子去度假:整个王室像成了卡米拉天下

凯特王妃复活节与威廉王子去度假:整个王室像成了卡米拉天下

小兔子爱旅游
2024-03-28 01:58:51
浙商创投创始合伙人华晔宇被情人举报后续:情人一审被判敲诈勒索获刑3年

浙商创投创始合伙人华晔宇被情人举报后续:情人一审被判敲诈勒索获刑3年

经济观察报
2024-03-28 16:01:14
雷军:小米SU7全系长续航,标配起步续航700公里

雷军:小米SU7全系长续航,标配起步续航700公里

界面新闻
2024-03-28 19:56:28
xiaomiSU7汽车打脸来的猝不及防,我就说:千万不要轻易下结论

xiaomiSU7汽车打脸来的猝不及防,我就说:千万不要轻易下结论

户外小阿隋
2024-03-16 12:19:03
19分大胜!辽篮4杀老冤家,半场打崩比赛,或提前锁定常规赛冠军

19分大胜!辽篮4杀老冤家,半场打崩比赛,或提前锁定常规赛冠军

环太平洋老正太
2024-03-28 21:22:13
媒体人:李铁将大部分资金洗到海外!在三国拥有房产,靠青训洗钱

媒体人:李铁将大部分资金洗到海外!在三国拥有房产,靠青训洗钱

奥拜尔
2024-03-28 12:55:55
家长吐槽苏州一小学给学生发“早产面包”,校方:正在追责

家长吐槽苏州一小学给学生发“早产面包”,校方:正在追责

人民资讯
2024-03-28 20:40:04
当代中年人的悲哀:花几十万培养的子女,到头来却领三四千的工资

当代中年人的悲哀:花几十万培养的子女,到头来却领三四千的工资

小马达情感故事
2024-03-28 17:20:03
乌克兰自曝是恐袭真凶,安全局长洋洋得意公布细节

乌克兰自曝是恐袭真凶,安全局长洋洋得意公布细节

评论员童童
2024-03-27 14:51:04
涉案1.2亿!李铁罪行:受贿7764万,当庭认罪,仍留着刘海

涉案1.2亿!李铁罪行:受贿7764万,当庭认罪,仍留着刘海

叶青足球世界
2024-03-28 21:19:39
小米汽车价格定了!神一样的预测,销量可达2200万辆?

小米汽车价格定了!神一样的预测,销量可达2200万辆?

虹摄库尔斯克
2024-03-27 15:13:41
4-1后伊万或清退中方教练组,3人将被拿下,他执教的国足不讲人情

4-1后伊万或清退中方教练组,3人将被拿下,他执教的国足不讲人情

我就是一个说球的
2024-03-28 17:15:09
李铁受贿共计高达7764万元,行贿4205万仅自掏腰包100万

李铁受贿共计高达7764万元,行贿4205万仅自掏腰包100万

直播吧
2024-03-28 21:43:03
尝试几次,怎么都进不去,怎么办?(超详细分析及解决方法)

尝试几次,怎么都进不去,怎么办?(超详细分析及解决方法)

小红帽笔记
2023-08-10 18:47:41
2024龙年清明节六十年不遇,这五类人不要上坟!

2024龙年清明节六十年不遇,这五类人不要上坟!

为什么有冬天夏天
2024-03-25 21:15:45
内蒙古赤峰女子举报遭生父性侵:生父被批捕,检方称已有证据在审查

内蒙古赤峰女子举报遭生父性侵:生父被批捕,检方称已有证据在审查

封面新闻
2024-03-28 15:36:15
2024-03-28 22:20:49

科技要闻

小米SU7起价21.59万元,顶配版29.99万元

头条要闻

小米SU7正式发布售价公布 蔚小理董事长亮相发布会

头条要闻

小米SU7正式发布售价公布 蔚小理董事长亮相发布会

体育要闻

疯狂的格林,冲刺的火箭

娱乐要闻

莱昂纳多与25岁新女友互相投喂超恩爱

财经要闻

中国版QE要来?国内外机构观点罕见一致

汽车要闻

混动增程双模式 长安UNI-Z售11.79万起

态度原创

手机
时尚
游戏
健康
军事航空

手机要闻

小米SU7 MAX版本售价29.99万元

人手一件的甜美公主风单品,怎么穿更适合轻熟女?

《漫威争锋》PC配置公开 推荐RTX 2060 Super

早防早筛,远离肝硬化

军事要闻

乌方声称击落两枚俄"锆石"高超音速导弹 俄方未予回应

无障碍浏览 进入关怀版
×