最后的防线:目前AI还难以战胜我们的游戏

爱玩网百万稿费活动投稿作者 Quinn,未经授权请勿转载

2016年的暴雪嘉年华开幕式上,暴雪宣布与谷歌DeepMind(即Alpha Go的创造者)合作,尝试开发新一代的人工智能,在《星际争霸2》中与人类对阵。一石激起千层浪,在围棋界出尽风头的人工智能,似乎对目前最经典的RTS系列志在必得。谷歌尚未给这位襁褓中的天才星际选手命名,我们暂且戏谑的称呼它为“Alpha SC”。人们最关注的问题是,“Alpha SC”是否可以在电子竞技再续辉煌?

答案是,非常可能。

Oriol Vinyals,谷歌搜索科学家,于暴雪嘉年华宣布DeepMind将挑战《星际争霸2》

难道人类,作为地球上的高等智能生物,在自己的造物面前只能节节败退,毫无还手之力?那倒不一定。如何打败Alpha Go,还得先从它的原理说起。相比较国际象棋,围棋的策略广度深度,令其一度被噱头媒体封为“计算机无法战胜游戏”。即使是专业的计算机学家,也曾认为在2035年之前AI无法拿下围棋。

然而阿法狗是如何做到的?简单来说,传统的围棋程序靠一个“傻子”瞎猜,例如猜一万次,每次乱走三步(脑海中假设对手也是乱走的),最后在这一万次里选择结果最好的那一步。听起来很傻是不是?然而阿法狗之前的围棋程序就是这么玩围棋的。阿法狗的聪明之处在于,额外增加了三个人,我们姑且称呼它们为“智者”、“评论家”和“疯子”。

集“智者”、“评论家”、“疯子”于一体的藤原佐为

“智者”学习数万张高水平棋谱后,告诉傻子,“嗨,兄弟,根据我学习的经验。你在脑海中推演的时候别乱走,试试走这几步,对手也不是乱走的,他可能走这、这几步。”假设傻子打算试一万次,每次在“智者”的指导下能少走三步,其效率就远比自己瞎蒙要高。另外,每推演一次,同样学习了棋谱的“评论家”便会根据推演完的场面给一个分数。推演全部完成后,傻子会在实际棋局中走出评分最高的那一步。看起来很完美是不是?目前截止,计算机做的所有事情全部是基于学习,然而光靠学习是无法打败师傅的。于是我们引入了“疯子”。“疯子”热爱与自己下棋,于是常常在“智者”的指导下与自己玩的不亦乐乎。每同自己完成一把比赛,“疯子”便会告诉“智者”:“你指导的黑子赢了,以后多用这些套路。指导的白子输了,以后少用。”在这种类似丛林法则的弱肉强食中,人类的招式经历了精炼与变形,令Alpha Go在不断进步中拥有了战胜人类的资本。在当时Master的60场比赛中,AI怪招频出,就要感谢这个“疯子”。

图片来源Pixiv(id=55831129,作者:MusyneXSK)

不得不说DeepMind在选择游戏上是相当聪明的。既然知道了阿法狗的原理,再来看看人类在《星际争霸2》中为何毫无胜算

1、APM,电子游戏作为AI的主场,它的优势无疑是巨大的。接近无限的APM让其战胜人类变得异乎简单。暴雪曾经制作出一个拥有一万APM的AI,甚至可以用100只小狗全歼20辆攻城坦克,而同样的情况下,职业玩家只能做到1-2辆。强大的微操能力让计算机可以轻易打赢数倍于己的人类玩家。虽然谷歌答应会对APM进行限制,然而限制多少,一分钟一次点击?还是三百,一千?从某种程度上来说AI已经赢了,区别只是,谷歌爸爸让不让他赢。

2、《星际争霸2》在开始接触敌人前,变数不大,相对计算机来说不难学习。起建筑、造兵、开分矿。规律性较强。这部分降低了决策深度。

3、随机情况较少,局部\全局最优解的分布较集中,让“智者”更容易给出最优答案。

4、对局记录丰富,易于计算机学习。

《星际争霸2》目前2000APM的AI,可以让100只小狗瞬间散成一圈

存在人工智能hold不住的游戏吗?

要找出电脑无法hold住的游戏,首先得明白“何种特质”的游戏难以被阿法狗掌握。

1、首先我们排除需要反应力、APM、点击精准度的游戏。即时策略、FPS、格斗类、MOBA类都可以排除。这些是计算机的绝对强项,其反应速度是人类的上百倍,点击精确度甚至可以精确到像素,躲技能的判断更是精确到毫秒,人类毫无胜算。

2、决策的深度和广度都必须保证。这一点为难了“傻子”。假设有一百个坑,只有一个装了萝卜原本“傻子”试五十个坑就有大概率找到萝卜,现在把坑增加到一万个,“傻子”只有傻眼了,要么它增加尝试的次数,要么只能降低找到正确坑的概率。

3、游戏最好具有一定的随机性。打个比较极端的例子,如果我们和计算机玩猜拳,赢电脑其实相当简单。因为完全随机让最优解的分布分散了,换句话说,每一个决定都是三分之一的胜率,机器无法学习到对自己最优的方案。当在游戏中加入较多的随机因素后,“智者”更难找到最佳策略。同样,“疯子”的效率也降低了——它左手赢,可能只是因为运气好而已,而事实上右手才是最佳策略,却因运气输掉了游戏,导致疯子更难判定左右手的优劣。

4、每一局游戏差异性越大,越不利于计算机学习。回到《星际争霸》,假设我们有一千个种族,几乎每一把职业比赛对决,都是不同种族之间的对决。对职业选手来说,大致想一下对方可能用的策略,便能从容比赛。而对于计算机来说,每一种种族间的比赛都只有1-2个样本可以学习,现在轮到“智者”和“评论家”蛋疼了。学习样本不够,每次“傻子”来问问题,见识短浅的“智者”只能乱给一个答案,而“评论家”打起分来,也仿佛TGA评委附体。现场根本控制不住。

5、即时性。由于“傻子”推演,“评论家”评分,“智者”思索对策都需要时间。当时间不够时,原本准备推演一万次的“傻子”,只能推演五千次遍要草草做决定。决策的质量自然是要打个折扣。

结合以上四点,几款游戏便呼之欲出了。

1、炉石传说

《炉石传说》相较于万智牌,拥有较高的随机性,蒙特卡洛搜索树的反馈难以让决策收敛于局部最优解。同时每一局的差异性巨大,让同样的对局不可能发生两次,也加大了计算机的学习难度。另外如果把组牌也算成游戏过程的话,创新牌组对于阿法狗来说几乎不可能。它的自学习网络难以应付如此庞大的组牌可能性,尤其是在对局拥有如此多的随机因素的情况下。即使它克服了全部的困难,由于对方的牌组未知,它依旧难以评估最应该打的牌。同时回合制也让它最擅长的微操毫无用武之处。

欧陆风云》、《维多利亚》、《十字军之王》系列

P社四萌中的三款。为什么唯独不包括《钢铁雄心》,因为《钢铁雄心》简化了经济与外交,专注于战斗系统。首先需要考虑的面就窄了很多,其次战斗系统对微操的依赖给了计算机相当大的优势,可能在策略上处于弱势,但计算机依旧可以用微操扳回劣势。

而《欧陆风云》、《维多利亚》、《十字军之王》系列,虽然复杂度各有高低,但涵盖面广,支系统复杂,各个系统之间相互作用说不清道不明,牵一发而动全身,对于计算机来说想要计算每一个决策的分值,将会相当困难。另外状态繁多,输入哪些数值给计算机用作决策参考,对于DeepMind来说也是相当复杂。并列为最不可能被计算机掌握的游戏之一。

《R.U.S.E》

育碧发行的即时战略游戏,也是上榜的唯一一款RTS。正如育碧宣传的,《R.U.S.E》故意简化了操作,让玩家可以从繁琐的微操中解脱出来,而专注于大局策略。游戏中,玩家可以将部队隐藏在树林中、或城市里。一旦成功组织一次埋伏,数倍于己的军队也将顷刻被消灭。另外游戏加了计策系统,例如无线电静默,可以让该区域无法被对方看到。间谍网则反过来,揭示该区域部队一段时间。

有的计策还可以组织木制坦克,来一次佯攻。甚至可以起假基地,诱骗电脑进攻。众所周知,计算机是相当好骗的。只要伪装的足够像,阿法狗也会真假难辨,进而落入玩家精心编织的陷阱。一场蓄谋已久的决战,便可一锤定音。

《坦克世界

《坦克世界》胜在每局的差异性,和过高的决策宽度,复杂且瞬息万变的战场态势,以及对微操的低依赖性。每一局都完全不一样的敌我阵容,以及多达上百辆自己可能使用的坦克,让学习异常困难。另外花样百出的敌我坦克站在各个不同的地方都会对决策产生影响,战场还是瞬息万变的,这对阿法狗来说,根本不可能在短时间内完成如此复杂的决策。同样的,游戏对微操依赖性不强,APM上万依旧然并卵。

魔兽世界:军团再临》

相比较其他RPG,《魔兽世界》实在是太庞大了,系统十分的复杂。即使现有机器学习算法已经可以理解NPC对话与剧情中的基本关系,但是庞大的背景和复杂的系统,依旧让AI无所适从。

计算机除了可以在PvP战胜人类外,无法顺利游玩绝大部分WoW内容。我相信若有一天计算机征服了WoW,那么可以在真实社会学习、生活,处理复杂难题的机器人也指日可待了(当然,这个时候还是把机器人的“PvP”系统删掉比较好)。

《五星上将》系列

该系列了解的童鞋可能不多,代表作为《装甲元帅》系列。游戏模拟了某一时期的战场,特点是囊括了该时期上百种大量武器装备,上至各类战机,下至架桥工程部队无所不包,是军事迷必玩的游戏。每种单位的属性多达21种,地形也会对战场产生各种影响,天气也让战局充满着不确定性——例如下雨后地面会变得泥泞,这对步行单位来说将是场灾难。

复杂的地形、单位,以及不确定的天气,让这款游戏相当真实地模拟了战场环境,也让计算机难以应付如此复杂的情况。另外不得不提的是,《五星上将》另一部作品,《人民的将军》的主角便是中国,玩家可以指挥诸如99式主战坦克、武直9、85榴这样的国产武器,在虚拟的棋盘上与世界各国来一场颇具真实感的较量。

在《人民的将军》中,玩家可以操控ZTZ85、ZTZ99等等游戏中并不常见的我军装备

推理类游戏(例如《逆转裁判》、《弹丸论破》系列)

很多推理对人类来说相当简单,对计算机来说却是极其困难的。自然语言学习已经可以提炼出人类话语中基本的逻辑(譬如我前面说的那句话,在计算机看来便是“人类-推理-简单,计算机-推理-难”),要找出游戏中的逻辑漏洞,经常需要人类生活中方方面面的常识——艺术、社会等等。

关于自然语言中命题逻辑的推理,目前也鲜有看见这方面的科研成果。此类游戏,以人类目前公开的知识水平,计算机只有用穷举法来通关,即点击每一个可能的对话选项,调查地图上每一个地点。显然的,通关速度将明显慢于人类。

《无尽传奇》&《太空帝国4》

两款4X游戏很相似,因此拿到一块来说。极丰富的内容,近乎无穷的状态变量,还有非常高的随机性,花样百出的任务,近乎无限的科技搭配,眼花缭乱的种族,功能各异的几十种兵种,更别提这些兵种还能自由搭配装备。种种这些,甚至直接让这两款游戏无法被计算机学习。

玩家常常抱怨《无尽传奇》的AI太傻。至于《太空帝国》这边,AI唯一技能就是到处乱窜,在银河系中示范近乎完美的布朗运动。对此我想说制作组真的尽力了,即使是阿法狗来做这游戏的AI,智商多半还不如现有的传统AI。况且内容如此丰富的游戏,即使只有自己一个人玩,也可以乐趣无穷,不是吗?

上述说的几款游戏,除非计算机性能出现爆炸式的提升,或者有新的更神奇的算法出现,他们都难以被AI掌握。至少在20年内,玩这些游戏还是我们人类的“专利”。然而技术在不断进步,没有永远无法攻破的堡垒。只是笔者不禁的猜想,在未来,当所有游戏的阵地皆被AI拿下时,昔日万灵之长手中骄傲的资本空空如也,却握着世界上最伟大的智能造物,我们的后代,到底是喜是忧?

然而计算机的想法估计很简单:这么弱?我可能认了个假爸爸。

本文所有关于Alpha Go原理性的描述,均基于DeepMind项目组2016年1月发表于《Nature》的论文《Mastering the Game of Go with Deep Neural Networks and Tree Search》,不对最新改进版Master负责。

欢迎参加——爱玩网百万稿费征稿活动:当金牌作者,开本站专栏,领丰厚稿费,得专属周边!

游戏专栏投稿信箱:otaku@vip.163.com

欢迎关注爱玩APP【精选】板块,更多精彩等着你!