手机看中经经济日报微信中经网微信

更厉害的阿尔法狗:Master战胜柯洁 Zero战胜Master

2017年10月19日 10:15   来源:经济日报-中国经济网   
  经济日报-中国经济网10月19日讯(记者佘惠敏)本周《自然》发表的一篇论文报道,一款新版的AlphaGo计算机程序能够从空白状态起,在不需要任何人类输入的条件下,迅速自学围棋。这款新程序名叫AlphaGo Zero,是无监督学习的产物,它的双胞胎兄弟Master则用了监督学习的方法。在训练了72小时后,AlphaGo Zero就能打败战胜李世乭的 AlphaGo Lee,相比较AlphaGo Lee训练了几个月。而40天后,AlphaGo Zero就能以89:11的成绩,将战胜了包括柯洁在内的所有人类高手的Master甩在后面。

  人工智能的最大挑战,是研发一种能从零开始、以超人类的水平学习复杂概念的算法。为了打败人类围棋世界冠军,科学家在训练上一款AlphaGo时,同时用到了监督式学习(基于上百万种人类专业选手的下棋步骤)和基于自我对弈的强化学习。那款AlphaGo的训练过程长达几个月,用到多台机器和48个TPU(神经网络训练所需的专业片)。

  本文中,英国DeepMind的David Silver, Julian Schrittwieser, Karen Simonyan, Demis Hassabis和同事介绍了AlphaGo Zero,它的学习从零开始,且单纯基于与自己的对弈。人类的输入仅限于棋盘和棋子,没有任何人类数据。AlphaGo Zero仅用到一张神经网络,这张网络经过训练,专门预测程序自身的棋步和棋局的赢家,在每次自我对弈中进步。新程序只使用一台机器和4个TPU。

  通过几天的训练——包括近500万局自我对弈——AlphaGo Zero便能够超越人类并打败所有之前的AlphaGo版本。随着程序训练的进行,它独立发现了人类用几千年才总结出来的围棋规则,还建立了新的战略,为这个古老的游戏带来新见解。

  AlphaGo Zero并没有像之前的兄弟姐妹一样被教育了人类的围棋知识。它只是和不同版本的自己下棋,然后用胜者的思路来训练新的版本,如此不断重复。通过这一方法,AlphaGo Zero完全自己摸索出了开局、收官、定式等以前人类已知的围棋知识,也摸索出了新的定势。

(责任编辑:林秀敏)

精彩图片