AI绝悟推出升级版本 英雄池完全解禁

一个人精通金庸武侠里的所有武功,这可能吗?现实中很难,但“绝悟“做到了。

11月28日腾讯宣布,由腾讯AI Lab 与王者荣耀联合研发的策略协作型AI“绝悟”推出升级版本。“绝悟”一年内掌握的英雄数从1个增加到100+个,实现了王者荣耀英雄池的完全解禁,此版本因此得名“绝悟完全体”。

升级后的“绝悟”AI不但掌握王者荣耀所有英雄的所有技能,能应对高达10的15次方的英雄组合数变化,还“自带军师”,能够做出最佳的英雄博弈策略选择,综合自身技能与对手情况等多重因素,派出最优英雄组合。

相关研究还被AI 顶级会议NeurIPS 2020 与顶级期刊TNNLS 收录,展现出腾讯国际一流的AI 研究与应用能力

AI+游戏研究是腾讯攻克AI 终极研究难题——通用人工智能(AGI)的关键一步。从绝艺到绝悟,不断让AI 从0到1去学习进化,并发展出一套合理的行为模式,这中间的经验方法结论,长期来看,将有望在大范围内,对医疗、制造、无人驾驶、农业到智慧城市管理等领域带来深远影响。

解锁“全能高手称号,英雄池完全解禁

在王者荣耀中,若每个职业都有4个紫色熟练度英雄,你就能解锁“全能高手”称号。但因为练习时间与精力限制,很少有人能精通所有英雄。

对于AI而言也有着巨大的挑战:不同的英雄实际上共享着一套模型参数,从零开始掌握单个英雄的打法是易如反掌的。但在对战中面对多英雄组合的时候,非完全的地图信息、每个英雄的战斗策略差异以及相互之间的协同,都导致难度的几何级增加。并且,多英雄组合还带来了AI 的“灾难性遗忘”问题,模型容易边学边忘,这成了长期困扰开发者的大难题。

但“绝悟”做到了,腾讯技术团队一年内让 AI 掌握的英雄数从1个增加到100+个,实现了王者荣耀英雄池的完全解禁。团队的长期目标,则是要让“绝悟”不但学会所有英雄的技能,而且每个英雄都能达到顶尖水平,可以根据阵型排列组合,打出制胜局。

“绝悟”是如何攻克这一难题的呢?技术团队使用了三个方法:

第一是打造一个AI模型,综合利用大量机器学习基本组件优势,让模型适配MOBA类任务表达能力强,还能对英雄操作精细建模

第二是是研究出CSPL的渐进学习方法(Curriculum Self-Play Learning,课程自对弈学习),让 AI 能从易到难、一步一步掌握所有英雄能力。

第三是专门搭建了一个大规模训练平台——腾讯开悟(aiarena.tencent.com),为训练AI所需要的大规模运算保驾护航。这个平台也开放给了 18 所一流高校使用,为研究提供技术和资源支持。

自带军师辅佐——“AI教练智用田忌赛马

一场比赛中,胜负的关键不仅在于拥有“绝悟”这样的顶尖选手,排兵布阵的教练也非常重要。团队的第二个目标,就是为“绝悟”找到一个能排兵布阵的AI教练,也就是在游戏BP环节(禁选英雄)的最优策略。

王者荣耀中的排位BP(BanPick,简称BP)环节,是可能影响到双方对局博弈的重要节点。简单的做法是采用“贪心策略”,即选择当前胜率最高的英雄。但王者荣耀有上百个英雄,任意英雄间都有或促进或克制的关系,只按胜率选择很容易被对手针对,更需要综合考虑敌我双方、已选和未选英雄的相关信息,最大化己方优势,最小化敌方优势,这就对AI的决策能力提出了更高的要求。

受到围棋 AI 算法的启发,团队创新采用了蒙特卡洛树搜索(MCTS)和神经网络结合的自动 BP 模型,能够又快又准地选出具备最大长期价值的英雄。

除了常见的单轮BP ,AI 教练还学会了王者荣耀 KPL 赛场上常见的多轮 BP 赛制,该模式下不能选重复英雄,对选人策略要求更高。训练后的BP模型在对阵基于“贪心策略”的基准方法时,能达到近70%胜率,对阵按位置随机阵容的胜率更接近90%。