首页 新闻 市场 科技 财经 商业 地产 手机版
国际 国内 产业 宏观 股市 公司 动态 行情 业界 电商 数码 手机 银行 理财 数据 金融 产经 生活 评论 观察 房产 家居 趋势 楼市

史上最强棋类AI!AlphaZero“通杀”三大棋类世界冠军 朝通用AI之路挺进

http://www.tzgcjie.com 来源:前瞻网            发布时间:2018-12-07 14:28:52

1

大约一年前,DeepMind--谷歌母公司Alphabet旗下英国人工智能部门--发布的预印本研究(《自学掌握象棋和将棋的通用强化学习算法》)登上头条新闻,它描述AlphaZero系统——能教自己如何掌握日本将棋和中国围棋游戏。在每一个案例中,它都打败了一个世界冠军,展示了一种最先进的技巧,即通过完美的信息来学习二人对弈游戏——也就是说,在游戏中,任何决定都被告知之前发生的所有事件。

DeepMind的声明之前的确令人印象深刻,但它们没有经过同行评审。但现在情况出现了新变化。DeepMind今天宣布,经过数月的反复修改,它在AlphaZero上的工作已经被《科学》(Science)杂志接受,并登上了头版。

AlphaZero的首席研究员David Silver在2018年蒙特利尔NeurIPS大会上表示“几年前,我们的程序AlphaGo以四比一击败了18届世界围棋冠军李世石。但对我们来说,这实际上是建立一个通用学习系统的开始,这个系统可以自己学习,玩很多不同的游戏,达到超人类的水平。AphaZero是这段旅程的下一步。它从零开始,打败了Gi、国际象棋和将棋的世界冠军项目。一开始,除了游戏规则,它什么都不知道。”

Silver解释说,之所以选择这些游戏,不仅是因为它们的复杂性,还因为之前关于它们的人工智能研究有着丰富的历史。

他说:“国际象棋……代表了人工智能传统方法在达到绝对极限时所能达到的效果,所以我们想看看,我们能否使用一种完全有原则的自学方法来推翻传统方法,即我们使用大量手工制作。我们选择将棋的原因是,就难度而言,它是除围棋外为数不多的几款非常、非常具有挑战性的棋盘游戏之一,即便是对专门的程序和电脑程序来说也具有挑战性。在过去的一两年里,才出现了能够与人类世界冠军相匹敌的计算机程序。”

为此,本周发表的论文描述了DeepMind是如何利用深层神经网络(一种分层的数学功能,模仿人类大脑中神经元的行为)而不是手工制定的规则,从而超越像Stockfish、Elmo和IBM深蓝(Deep Blue)等玩国际象棋和将棋算法的引擎。它的动态游戏模式产生了创造性和非常规的策略,启发了两届英国国际象棋冠军、特级大师Matthew Sadler和国际女子象棋大师Natasha Regan即将出版的一本书。

Sadler表示:“传统的引擎非常强大,很少出现明显的错误,但在没有具体和可计算的解决方案的情况下,它们可能会不稳定……令人印象深刻的是,(AlphaZero)成功地将自己的玩法应用于非常广泛的位置和开局。正是在这种需要‘感觉’、‘洞察力’或‘直觉’的位置上, AlphaZero风格应运而生。”

例如,在国际象棋中,AlphaZero发现了诸如开局(象棋游戏的初始动作)、国王的安全(保护国王的方法)和卒结构(棋盘上的棋子的配置)等主题。它倾向于向对手国王周围棋子下手,最大化其棋子的机动性,同时最小化敌人棋子的机动性。就像人类一样,它愿意为了长期目标牺牲自己的一部分。

教AlphaZero如何玩这三款游戏中的每一款,都需要模拟数百万场比赛,这一过程被称为强化学习,在这个过程中,一套奖惩系统会驱使AI代理朝着特定的目标前进。AlphaZero一开始玩得很随意,但最终通过调整参数以适应某种游戏风格避免了损失。

训练AlphaZero所需的总时间因游戏而异。系统最少需要700000训练步骤与5000个第一代TPU和16个第二代TPU——谷歌设计的专用集成电路优化机器学习,国际象棋的训练时间为9个小时,将棋和围棋的训练量分别为12个小时和13天。

为了测试经过充分训练的AlphaZero, DeepMind的研究人员将其与前述的Stockfish和Elmo游戏引擎(除了它的前身AlphaGo Zero)进行了竞争。AlphaZero在一台拥有44个处理器核和4个谷歌第一代TPU的机器上运行——这些硬件的推理能力与一台拥有几个英伟达 Titan V图形处理单元(GPU)的工作站大致相当——AlphaZero在每场3小时的比赛中轻松赢得了多数比赛。

在象棋中,在与Stockfish的1000场比赛中,AlphaZero赢了155场,输了6场。此外,它在以人类常见的下棋策略为开局的游戏中也名列前茅。

与此同时,在将棋游戏中,AlphaZero以91.2%的几率击败了2017年CSA世界冠军版本的Elmo。在Go与AlphaGo的对弈中,它赢了61%的比赛。

DeepMind的首席执行官兼联合创始人Hassabis表示,国际象棋界正在利用AlphaZero的观点来推动有关马格努斯·卡尔森 (Magnus Carlsen,世界一流的国际象棋棋手) 和Fabiano Caruana(意大利国际特级大师)之间最近举行的世界国际象棋锦标赛比赛的争论。

Regan说:“看到AlphaZero的分析与顶级国际象棋引擎甚至顶级象棋大师的分析有何不同,这很有意思。我花了好几个月的时间来探索AlphaZero的象棋游戏,我觉得自己对这款游戏的概念和理解已经改变和丰富了。AlphaZero为我们提供了一种检查工具,检查我们人类在国际象棋比赛中自学的所有知识,它可能成为整个社会的一种强大的教学工具。”

当然,该系统最终目的不仅仅是创造超人类的象棋程序。Hassabis说,目标是利用AlphaZero项目的经验来开发能够解决社会最严峻挑战的系统。

最近,DeepMind的AlphaFold——一种能够预测复杂蛋白质结构的人工智能系统——在CASP13蛋白质折叠竞赛的98个竞争者中排名第一。

Hassabis说:“AlphaZero是我们通往通用人工智能之路的垫脚石。我们测试自己和所有这些游戏的原因是……它们为我们开发算法提供了非常便利的试验场……最终,(我们正在开发的算法可以)转化为现实世界,解决真正具有挑战性的问题……并帮助这些领域的专家。”

【免责声明】 凡本站未注明来源为投资观察界:www.tzgcjie.com的所有作品,均转载、编译或摘编自其它媒体,转载、编译或摘编的目的在于传递更多信息,并不代表本站赞同其观点和对其真实性负责。其他媒体、网站或个人转载使用时必须保留本站注明的文章来源,并自负法律责任。 如您不希望作品出现在本站,可联系我们要求撤下您的作品。联系邮箱:xinxifankuui@163.com
责任编辑:
首页 | 新闻 | 市场 | 科技 | 财经 | 商业 | 地产