AlphaGo Zero自学成才,轻易击败上一代AlphaGo
一台无师自通的电脑,在没有任何人类专家输入的前提下,成为了极其复杂的棋盘游戏围棋的世界顶级高手。
在高调推出AlphaGo不到两年后,谷歌(Google)旗下位于伦敦的人工智能公司DeepMind宣布了人工智能(AI)技术的又一里程碑,AlphaGo是在这项古老的亚洲游戏上击败人类冠军的第一台机器。科学期刊《自然》(Nature)发表了相关细节。
前几代AlphaGo最初通过分析成千上万场优秀人类玩家间的对决来发现制胜招数。新开发的AlphaGo Zero则根本不需要人类专长,只要知道游戏规则和目标就可以投入游戏。
“它学游戏仅仅是通过跟自己玩,从完全的随机玩游戏开始,”DeepMind首席执行官杰米斯•哈萨比斯(Demis Hassabis)说。“在玩的过程中,它很快就超过了人类的水平,并以100比0的战绩击败了在论文中介绍过的上一代AlphaGo。”
他的同事、AlphaGo项目负责人戴维•西尔弗(David Silver)补充称:“我们不以任何方式使用人类数据,就可以让它从一块白板创造知识。”在几天时间里,AlphaGo不仅学会了下围棋,而且还胜过了人类历经数千年在该游戏上累积的智慧。
该团队开发了一种新的“强化学习”形式来创造AlphaGo Zero,将基于搜索的未来走法模拟与神经网络相结合,决定如何出招才能获得最高的获胜概率。该网络用数百万场培训游戏不断更新,每次更新都会带来稍稍增强的系统。
尽管围棋在某种层面上非常复杂,具有比宇宙中的原子更多的潜在走法,但从另一个层面来说它也是简单的,因为它是一种“完美信息的游戏”——它不会像扑克牌或骰子一样与机会有关,而且棋局完全由棋子的位置决定。
下围棋需要占据比对手更多的地盘。围棋的这个特征让它特别容易受到AlphaGo所依赖的计算机模拟的影响。DeepMind正在考虑将该技术应用于那些能以类似方式结构化的现实生活问题。
哈萨比斯指出,它很有希望应用于预测蛋白质分子形状-——药物发现中的一个重要问题。其他可能的科学应用包括设计新材料和气候建模。
英国《金融时报》科学编辑 克莱夫•库克森
译者/何黎