当前位置：首页 > 新闻 > 数码科技

谷歌AlphaGo算法的巨大优势与可能的缺陷(组图)

www.sinoca.com 2016-03-13 观察者

　　2016年3月12日人机大战第三局，AlphaGo执白176手中盘胜李世石，以3:0的比分提前取得了对人类的胜利。

　　这一局李世石败得最惨，早早就被AlphaGo妙手击溃，整盘毫无机会。最后李世石悲壮地造劫，在AlphaGo脱先之后终于造出了紧劫。但AlphaGo只靠本身劫就赢得了劫争，粉碎了AlphaGo不会打劫的猜想。这一局AlphaGo表现出的水平是三局中最高的，几乎没有一手棋能被人置疑的，全是好招。三局过去，AlphaGo到底实力高到什么程度，人们反而更不清楚了。

　　看完这三局，棋界终于差不多绝望了，原以为5:0的，都倒向0:5了。有些职业棋手在盘算让先、让二子是否顶得住。整个历程可以和科幻小说《三体》中的黑暗战役类比，人类开始对战胜三体人信心满满，一心想旁观5:0的大胜。一场战斗下来人类舰队全灭，全体陷入了0:5的悲观失望情绪中。

　　我也是纠结了一阵子，看着人类在围棋上被机器碾压的心情确实不好。但是承认机器的优势后，迅速完成了心理建设，又开心地看待围棋了。其实挺容易的，国际象棋界早就有这样的事了。这个可以等五盘棋过后写。

　　现在我的感觉是，棋界整体还是对AlphaGo的算法以及风格很不适应。一开始轻视，一输再输，姿态越来越低，三盘过后已经降到一个很低迷沉郁的心理状态了。这也可以理解，我一个围棋迷都抑郁了一会，何况是视棋如生命的职业棋手。但是不管如何，还是应该从技术的角度平心静气地搞清楚，AlphaGo到底是怎么下棋的，优势到底在哪些，是不是就没有一点弱点了?

　　现在有了三盘高水平的棋谱，质量远高于之前和樊麾的五盘棋谱。还有谷歌2016年1月28号发表在《自然》上的论文，介绍了很多技术细节，还有一些流传的消息，其实相关的信息并不少，可以作出一些技术分析了。

　　之前一篇文章提到，从研发的角度看，谷歌团队把15-20个专家凑在了一起，又提供了巨量的高性能计算资源，建立起了整个AlphaGo算法研究的“流水线”。这样谷歌团队就从改程序代码的麻烦工作中解放出来，变成指挥机器干活，开动流水线不断学习进步，改善策略网络价值网络的系数。而且这个研发架构似乎没有什么严重的瓶颈，可以持续不断地自我提升，有小瓶颈也可以想办法再改训练方法。就算它终于遇到了瓶颈，可能水平也远远超过人类了。

　　这些复杂而不断变动的神经网络系数是AlphaGo的独门绝技，要训练这些网络，需要比分布式版本对局时1200多个CPU多得多的计算资源。AlphaGo算法里还是有一些模块代码是需要人去写的，这些代码可不是机器训练出来的，再怎么训练也改不了，谷歌团队还不可能做到这么厉害。例如蒙特卡洛搜索(MCTS)整个框架的代码，例如快速走子网络的代码。这里其实有两位论文共同第一作者David Silver和Aja Huang多年积累的贡献。这些人写的代码，就会有内在的缺陷，不太可能是完美无缺的。这些缺陷不是“流水线”不眠不休疯狂训练能解决的，是AlphaGo真正的内在缺陷，是深度学习、self-play、进化、强化学习这些高级名词解决不了的。谷歌再能堆硬件，也解决不了，还得人去改代码。

　　第一局开局前，谷歌就说其实还在忙着换版本，最新版本不稳定，所以就用上一个固定版本了。这种开发工作，有可能就是人工改代码消除bug的，可能测试没完，不敢用。

　　总之，像AlphaGo这么大一个软件，从算法角度看存在bug是非常可能的。在行棋时表现出来就是，它突然下出一些不好的招数，而且不是因为策略网络价值网络水平不够高，而是MCTS框架相关的搜索代码运行的结果。如果要找AlphaGo潜在的bug，需要去仔细研究它的“搜索 ”。这可能是它唯一的命门所在，而且不好改进。

　　那么MCTS的好处坏处到底是什么?幸运的是，Zen和CrazyStone等上一代程序，以及facebook田渊栋博士开发的Darkforest都用了MCTS。它们和AlphaGo虽然棋力相差很远，但是行棋思想其实很相似，相通之处远比我们想象的高得多。

　　这是田渊栋贴的Darkforest对前两局的局势评分。可以看出，这个评分和棋局走向高度一致，完全说得通。而且谷歌也透露了AlphaGo对局势的评分，虽然一直领先，但第二局也有接近的时候，能够相互印证。如果到网上下载一个Zen，输入AlphaGo和李世石的对局，选择一个局面进行分析，也会有像模像样的评分出来。这究竟是怎么回事?

　　从技术上来说，所谓的局势评分，就是程序的MCTS模块，对模拟的合理局面的胜率估计。连AlphaGo也是这样做的，所以几个程序才能对同样一个局面聊到一块去。所有程序的MCTS，都是从当前局面，选择一些分支节点搜索，一直分支下去到某层的“叶子”节点，比如深入20步。

　　这个分支策略，AlphaGo和Darkforest用的是“策略网络”提供的选点，选概率大的先试，又鼓励没试过的走走。到了叶子节点后，就改用一个“快速走子策略”一直下完，不分支了，你一步我一步往下推进，比如再下200步下完数子定出胜负。这个走子策略必须是快速的，谷歌论文中说AlphaGo的快速走子策略比策略网络快1000倍。如果用策略网络来走子，那就没有时间下完了，和李世石对局时的2小时会远远不够用。下完以后，将结果一路返回，作一些标记。最后统计所有合理的最终局面，看双方胜利的各占多少，就有一个胜率报出来，作为局势的评分。一般到80%这类的胜率就没意义了，必胜了，机器看自己低于20%就中盘认输了。

　　AlphaGo的创新是有价值网络，评估叶子节点时不是只看下完的结果，而是一半一半，也考虑价值网络直接对叶子节点预测的胜负结果。走子选择就简单了，选获胜概率最大的那个分支。机器也会随机下，因为有时几个分支胜率一样。

　　MCTS这个框架对棋力最大的意义，我认为就是“大局观”好。无论局部如何激烈战斗，所有的模拟都永远下完，全盘算子的个数。这样对于自己有多少占地盘的潜力，就比毛估估要清楚多了。以前的程序，就不下到终局，用一些棋块形状幅射之类的来算自己影响的地盘，估得很差，因为一些棋块死没死都不清楚。MCTS就不错，下到终局死没死一清二楚。MCTS也不会只盯着局部得失，而是整个盘面都去划清楚边界。这个特点让几个AI对局势的评估经常很相似，大局观都不错。MCTS对于双方交界的地方，以及虚虚实实的阵势，通过打入之类的模拟，大致有个评估。当然这不是棋力的关键，大局观再好，局部被对手杀死也没有用，可能几手下来，局势评估就发生了突变。

1/3 1 2 3 下一页尾页

上一篇：婴儿出生时羊水未破摄影师拍下稀有分娩照(组图)
下一篇：用美女做诱饵朝鲜成功发动黑客袭击 40人中招

[声明] 加拿大华人网刊载此文不代表同意其说法或描述，仅为提供更多信息，也不构成任何投资或其他建议。转载需经加拿大华人网同意并注明出处。本网站部分文章是由网友自由上传。对于此类文章本站仅提供交流平台，不为其版权负责。如果您发现本网站上有侵犯您的知识产权的文章，请联系我们。