AlphaGo Zero自学成才，轻易击败上一代AlphaGo

2017-10-19阅读: 10

来源：FT中文网

一台无师自通的电脑，在没有任何人类专家输入的前提下，成为了极其复杂的棋盘游戏围棋的世界顶级高手。

在高调推出AlphaGo不到两年后，谷歌(Google)旗下位于伦敦的人工智能公司DeepMind宣布了人工智能(AI)技术的又一里程碑，AlphaGo是在这项古老的亚洲游戏上击败人类冠军的第一台机器。科学期刊《自然》(Nature)发表了相关细节。

前几代AlphaGo最初通过分析成千上万场优秀人类玩家间的对决来发现制胜招数。新开发的AlphaGo Zero则根本不需要人类专长，只要知道游戏规则和目标就可以投入游戏。

“它学游戏仅仅是通过跟自己玩，从完全的随机玩游戏开始，”DeepMind首席执行官杰米斯•哈萨比斯(Demis Hassabis)说。“在玩的过程中，它很快就超过了人类的水平，并以100比0的战绩击败了在论文中介绍过的上一代AlphaGo。”

他的同事、AlphaGo项目负责人戴维•西尔弗(David Silver)补充称：“我们不以任何方式使用人类数据，就可以让它从一块白板创造知识。”在几天时间里，AlphaGo不仅学会了下围棋，而且还胜过了人类历经数千年在该游戏上累积的智慧。

该团队开发了一种新的“强化学习”形式来创造AlphaGo Zero，将基于搜索的未来走法模拟与神经网络相结合，决定如何出招才能获得最高的获胜概率。该网络用数百万场培训游戏不断更新，每次更新都会带来稍稍增强的系统。

尽管围棋在某种层面上非常复杂，具有比宇宙中的原子更多的潜在走法，但从另一个层面来说它也是简单的，因为它是一种“完美信息的游戏”——它不会像扑克牌或骰子一样与机会有关，而且棋局完全由棋子的位置决定。

下围棋需要占据比对手更多的地盘。围棋的这个特征让它特别容易受到AlphaGo所依赖的计算机模拟的影响。DeepMind正在考虑将该技术应用于那些能以类似方式结构化的现实生活问题。

哈萨比斯指出，它很有希望应用于预测蛋白质分子形状-——药物发现中的一个重要问题。其他可能的科学应用包括设计新材料和气候建模。

英国《金融时报》科学编辑克莱夫•库克森

译者/何黎