ABM+机器学习:如何理解终局之战?

现实世界中的诸多场景,从古代的田忌赛马到现代的核威慑、越南战争及俄乌冲突,都可以认为是典型的博弈场景。在冯·诺伊曼和奥斯卡·摩根斯特恩的《博弈论与经济行为》奠定其理论研究基础之后,博弈论作为一个重要的分析工具,在众多学科和领域中都得到了广泛的应用。

不过,即便在“玩”博弈模型的专业人士看来,目前绝大部分的博弈论模型都只是具有启发作用的“玩具”。这其中核心的原因是博弈论通常研究的都是高度简化了的“常规博弈”问题,而真实世界里的博弈情形却是非常复杂的。

“常规博弈”场景所描绘的是相对简单、规则明确的场景,通常包含2到3个行为体,在享有“共同知识”(common knowledge)的情景下进行博弈。从各种棋类游戏(象棋、围棋),到“囚徒困境”等等,都是规则确定的常规博弈。对于这类博弈问题,我们通常的做法是去求它们数学上的均衡解,从而帮助我们理解这些问题。在均衡解下,每个行为体的行为都是最优策略,即任何一方都不可能通过单方面改变策略而获得更好的结果。

但是,一旦博弈场景变得非常复杂,特别是博弈规则不太明确时,“常规博弈”的求解就会十分复杂——没有均衡解或者有太多的均衡解,因而难以理解。

以田忌赛马的故事为例。如果田忌和齐威王各自有15匹马,可以任意组合,但不能重复使用。比赛分为五轮,而且每一轮之后双方都可以根据上一轮的结果来调整策略,则该博弈的复杂度将呈指数级增长。但这也仅仅是一个稍显复杂的博弈问题,而且是有双方均接受的明确规则作为“共同知识”的博弈问题。

何谓“非常规复杂战略博弈”?

现实国际政治中的博弈场景,远远比传统博弈复杂得多。绝大多数时候,这些博弈不仅涉及多个行为体、多种行为和行为规则,行为交互作用规则也呈多样话(比如,不一定是你来我往),甚至由于行为体需要考虑多个方面的得失,因此权衡得失也非常困难。

最为重要的是,这类博弈问题通常还缺乏“共同知识”。也就是说,博弈的规则是不确定的,至少是不完整的。我们知道,任何棋类都是规则非常明确而且双方必须遵守的。这些非常明确且双方必须遵守的规则就是这类博弈问题中的核心的“共同知识”,也是这类博弈得以进行的核心基础。

相比之下,国际关系博弈往往不那么明确,不论过去朝鲜战争的停战谈判、越南战争的日内瓦谈判,还是眼下俄乌战争可能的和谈,都是多方多轮的博弈。参与各方均有“阴谋”与“阳谋”,而且手段大概率是“灰色”的(例如尔虞我诈、盟友背后捅刀等等),甚至谈判参与方也会发生变化。各方都试图“出奇制胜”,甚至可以说毫无规则可言,导致博弈更具不确定性。

显然,国际政治的博弈场景和博弈论通常讨论的博弈情形和模型有着天壤之别。这样的博弈问题几乎不可能有一个完整的数学刻画,因而也不可能有数学均衡解。我们将这类博弈称为“非常规复杂战略博弈”。而战争是最为复杂的非常规博弈问题,《孙子兵法》所谓“兵者,诡道也”恰恰道出了非常规博弈的核心原则。

需要特别指出的是,非常规博弈与受同一行为体(或者指挥官)指挥的个体或者智能体(如无人机)之间的“协同”也是非常不同的。

总之,传统博弈论是无法有效解决“非常规复杂战略博弈”问题的。面对“非常规复杂战略博弈”问题,我们亟需超越传统博弈论的框架,探索新的理论工具与分析方法。

ABM+机器学习:非常规复杂博弈的解决方案

我们认为,要处理“非常规复杂战略博弈”问题,以基于行为体的建模(Agent-Based Modelling,ABM)系统为核心,再结合强化学习以及其他的机器学习技术,可能是一种可行的解决方案。

ABM模型擅长模拟多个行为体之间复杂的互动导致的涌现性结果,而强化学习则为ABM中的行为体提供了更加有效的自我学习的基础,因而有助于我们更好地理解和预测博弈的可能结果。

事实上,ABM从一开始就受到了博弈论和演化思想的影响。冯·诺伊曼不仅是博弈论的奠基人之一,还发展了第一个ABM系统的雏形——“通用构造器”(Universal Constructor)或“元胞自动机”(Cellular Automata)。

世界上第一个社会科学领域的ABM系统,是1971年托马斯·谢林关于种族隔离的著名研究。而谢林本人因为对非合作博弈论的贡献,于2005年与罗伯特·奥曼一起获得诺贝尔经济学奖。基于一个简单的ABM模型,谢林发现,在一个有多个行为体(住户)的社区中,尽管各自的行为相对简单,且每个行为体都不是“种族主义者”,但种族隔离现象仍然会产生。这样的涌现性结果显然是常规博弈模型无法呈现的。

受此启发,我们认为可行的研究路径是:可以秉承某些常规博弈论的思想,为非常规复杂战略博弈进行建模,然后主要依赖ABM来探索其可能的结果,即通过多次(大于100次,甚至更多)模拟,基于不同的参数甚至方程系统,模拟不同行为、行为规则、互动规则的多种组合下的复杂博弈结果,来获得不同博弈结果及中间状态的概率分布,从而加深对博弈系统的理解。

与绝大多数其他社会科学方法或技术相比,ABM具有极高的灵活性。在构建ABM时,研究者一般会对行为体、行为、行为规则、互动规则、系统环境等先做设定,而且这些设定通常都不是固定数值,而是某个区间。在经过多轮模拟之后,我们可以通过更改这些设定来创建数量巨大的相邻模型,然后基于验证(validation)和校准(calibration),ABM可以靠修改方程和参数调参来迅速筛选出更符合实际世界的模型。

针对非常规复杂战略博弈的ABM建模思路大致如下:我们首先需要基于相应的历史或现实案例,从中抽象、提炼出行为体特征、环境特征和其他初始设定;其次结合专家知识,大致明确行为矩阵;然后是让系统在各种行为规则、互动规则的制约下不断运行,系统状态也会随之不断更新;通过多次模拟和不断验证和校准,最终获得可靠的不同博弈结果及中间状态的概率分布。有了这样的结果,我们便能倒推在特定博弈场景中,博弈各方的行为策略和特定的行为。

构建ABM基础系统之后,我们还可以纳入“部分可观测马尔可夫决策过程(POMDP)”来刻画行为体与环境(包括系统中其他所有的行为体)的交互关系,并用强化学习技术来评估行为体策略价值,拟合优化行为体决策偏好。

部分可观测马尔可夫决策过程是一类复杂的决策模型,往往用于在不确定性情境中生成决策。其主要组成要素包括:环境状态、行为体的行为空间、 状态转移概率、行为奖励、观测空间、奖励的衰减系数等。

强化学习是使行为体通过与环境的互动来学习最佳策略的方法。与其他机器学习技术不同,强化学习特别关注不确定和动态环境下的决策,所以特别适用于探索模拟博弈场景中的策略。其基本逻辑是:在每个时间点中,行为体接收到当前的状态St和奖励Rt;行为体从可做出的行为列表中,根据策略函数选择出行为At,接着发送给环境模型;然后环境模型根据接收的行为通过转移函数转移到下一状态St+1和奖励Rt+1,以此循环往复。

强化学习的目的是让行为体学习并找到最优或接近最优的行为策略方法,以此最大化奖励收益。强化学习的演化性和动态性使我们能够探索行为体在复杂博弈场景中的决策及策略偏好变化,并为ABM的验证与校准提供支持。这种结合将帮助我们更好地把握系统的不同状态及其概率分布。

值得一提的是,非常规复杂战略博弈几乎不可能存有大量数据,因此,高度依赖大规模数据的机器学习的做法并不适用。针对这类博弈问题,我们需要的不是“大数据”而是“全数据”计算的思路,即基于问题来思考数据和技术路径的思路。

总之,对于多个国家之间战略层面的多回合博弈,常规博弈论的数学求解方法已经显得力不从心。因此,针对这样的复杂场景,我们只能发展基于博弈论核心思想的大规模高性能ABM系统,来捕捉复杂博弈所导致的各种复杂状态及其概率分布,并进一步反推不同行为体的行为、行为规则等等,从而实现对非常规复杂战略博弈的更全面的理解与应对。

总结

国家在国际大环境下面对的博弈基本都是多方多轮的非常规复杂战略博弈问题。要更好地应对这些博弈问题,我们需要突破传统的博弈建模方法,特别是突破“共同知识”对传统博弈建模的禁锢,从而构建非常规复杂战略博弈的模型,并运用大规模高性能的ABM来推演这类非常规复杂战略博弈问题。这样才能够最终实现让博弈建模从理论模型(“玩具”)到真实场景应用的决定性转变。

唐世平,系复旦大学教授、复杂决策分析中心主任。