OpenAI o1 强化学习背后的自博弈(Self-play)方法介绍



引言
这两天炸裂朋友圈的OpenAI 草莓大模型 o1 和此前代码能力大幅升级的Claude3.5,业内都猜测经过了自博弈(Self-play)强化学习。强化学习的自博弈方法的核心在于,能够通过自我对弈不断进化。《A Survey on Self-play Methods in Reinforcement Learning》这篇综述文章,将带我们深入了解自博弈方法的理论基础、关键技术以及在多样化场景下的应用实践。综述全面梳理了自博弈方法的研究进展,探讨其在模拟复杂决策过程中的作用,以及在未来发展中可能面临的挑战和机遇。


原文链接: https://arxiv.org/pdf/2408.01072





综述看点‍‍



  1. 自博弈的起源与理论基础
  2. 核心算法与理论基础:深入分析自博弈中的关键算法及其理论支撑。
  3. 性能评估与优化策略:探讨如何评估自博弈智能体的性能,并提出优化策略。
  4. 多场景应用案例:展示自博弈方法在棋盘游戏、纸牌游戏和视频游戏等领域的应用实例。
  5. 未来发展趋势:预测自博弈方法未来的研究方向和潜在的技术突破。





内容概览‍‍


1.引言与背景
  • 人工智能与强化学习
  • 自博弈的兴起与重要性
  • AlphaGo作为自博弈的里程碑

2.预备知识:自博弈基础

  • 多智能体强化学习(MARL)概念

  • 博弈论基础

  • 自博弈评估指标

3.自博弈技术概览1)自博弈算法分类
  • 传统自博弈算法
  • PSRO系列算法
  • 基于持续训练的算法
  • 基于遗憾最小化的算法

2)自博弈在不同领域的应用
  • 棋盘博弈:围棋、象棋、战棋
  • 纸牌博弈:德州扑克、斗地主、麻将
  • 视频游戏:《星际争霸II》、MOBA游戏、Google Research Football

3)算法性能评估

  • 数据集与基准测试

  • 评估指标:ELO、Glicko、TrueSkill等

4.挑战与开放问题
  • 自博弈的收敛性问题
  • 环境非平稳性与算法鲁棒性
  • 可扩展性与训练效率
  • 自博弈在大型语言模型中的应用      





强化学习中自博弈方法的研究综述


摘要——自博弈通过让智能体与自身的副本或过去版本进行交互,近年来在强化学习领域引起了广泛关注。本文首先介绍了自博弈的基本概念,包括多智能体强化学习框架和博弈论的基础知识。接着,本文提出了一个统一的框架,并在该框架内对现有的自博弈算法进行了系统分类。通过详细分析自博弈在不同场景中的应用,本文搭建了算法与实际应用之间的桥梁。此外,本文还强调了自博弈面临的开放挑战及未来的研究方向。本综述为理解强化学习中自博弈的多维景观提供了重要的参考和指导。

索引词——自博弈、强化学习、博弈论、多智能体


I 引言

强化学习(RL)是机器学习中的一个重要范式,旨在通过与环境的交互优化决策过程。它通常通过马尔可夫决策过程(MDP)建模,MDP是一个数学框架,用于描述由状态、动作、转移和奖励组成的环境。在MDP中,智能体通过观察当前状态、执行策略定义的动作、接收相应的奖励,并转移到下一个状态来进行操作。RL算法的核心目标是找到最优策略,以最大化长期的预期累积奖励。深度强化学习进一步扩展了传统RL,通过深度神经网络作为函数逼近器,使其在处理高维状态空间时展现出巨大优势,推动了复杂任务中的多项突破。

此外,从单智能体扩展到多智能体强化学习(MARL)带来了复杂的动态交互。在MARL中,智能体的行为相互依赖,导致每个智能体所面临的环境是动态变化的。这种相互依赖性引发了协调、通信和均衡选择等挑战,尤其在竞争场景中尤为突出。这些挑战使得MARL算法在实现收敛、稳定性和有效探索解空间方面面临诸多困难。自博弈(Self-play)通过借助博弈论来建模多个决策者之间的互动,为解决MARL中的固有问题提供了优雅的解决方案。通过与自身副本或过去版本的交互,自博弈在处理非静态性和协调问题上表现突出,使学习过程更稳定、更易管理。自博弈广泛应用于各种场景,如围棋、国际象棋、扑克和视频博弈,开发出超越人类专家水平的策略。尽管自博弈具有广泛的应用潜力,但其也存在局限性,如可能收敛到次优策略以及对计算资源的高需求。尽管已有研究通过经验博弈论分析提供了广泛视角,但专门针对自博弈的全面综述仍然较为缺乏。一些研究探讨了自博弈的理论安全性,另一些则开发了自博弈的算法框架,但遗憾的是,这些框架未涵盖策略空间响应神谕(PSRO)系列算法。此外,还有研究专门聚焦于PSRO。尽管这些研究各自具有重要价值,但它们未能全面展现自博弈的广度和深度。因此,本综述的目标是弥补这一不足,为读者提供一个更全面的自博弈视角。

本综述的组织结构如下:

  • 第II节:介绍自博弈的背景,包括RL框架和基本的博弈论概念。

  • 第III节:提出一个统一框架,并基于此框架将现有自博弈算法分为四大类,以明确自博弈的现状。

  • 第IV节:进行综合分析,展示自博弈在不同场景中的应用。

  • 第V节:描述自博弈中的开放问题,并探讨未来研究方向。

  • 第VI节:对自博弈领域进行总结。


II 预备知识

在这一部分,我们首先介绍强化学习的框架,进而介绍自博弈中使用的基本博弈论概念和典型评估指标。

A. RL概念

在马尔可夫决策过程中,智能体通过采取行动与环境进行交互,导致不同的状态并伴随相应的奖励。马尔可夫假设指出,系统的演变完全由其当前状态决定,无需考虑历史状态。MDP可以扩展到多智能体设置,称为马尔可夫博弈(MG),也称为随机博弈。

在RL的背景下,智能体根据如下方式与环境进行交互:在每个离散时间步t,每个智能体i从环境中接收一个观测值Oi,t,并根据随机策略πθi: Oi × Ai → [0, 1](其中θi是参数)选择一个动作。在接收到联合动作at = (a1,t,...,an,t)后,环境根据转移函数P从当前状态st过渡到后续状态st+1,并向每个智能体i发送一个奖励ri,t+1。智能体i的最终目标是最大化期望折扣累积奖励:Eπθi [∑∞t=0 γtri,t]。

B. 博弈论概念

1)(不)完美信息和(不)完全信息:

在完美信息博弈中,每次只有一个玩家行动。每个玩家对当前博弈状态、已做出的所有移动历史以及所有潜在的未来发展都有全面的了解。如果不满足这些条件,则博弈被认为具有不完美信息。在不完全信息博弈中,至少有一个玩家不知道另一个玩家的收益;否则,它是完全信息博弈。例如,围棋既是完美信息博弈也是完全信息博弈。玩家对整个博弈结构有全面的了解,包括所有可能的走法,并且他们可以轮流看到对手所做的每一步(完美信息)。此外,如果结果被认为是二元的,如胜或负,那么玩家的收益对双方来说都是已知的(完全信息)。

2) 标准型和扩展型:

在博弈论中,标准博弈(又称为正规型博弈或静态博弈)和拓展博弈(又称为动态博弈)是分析不同类型决策情况的两种基本形式。
  1. 标准博弈:这种博弈强调的是在一次性决策的情境下,每个玩家在做出选择时只知道自己的可用策略和收益,而不知道其他玩家的选择。所有玩家的决策同时进行,无法观察到对方的选择,常见的表示方法是通过赢利矩阵来展示各种策略组合下的结果。
  2. 拓展博弈:在这类博弈中,博弈有多个阶段,玩家在博弈中的某个时刻做决策时,可以观察到之前发生的动作和事件。这种博弈通常通过决策树来表示,强调的是决策的序列和信息的演化,玩家需要根据先前的行动和可能的未来反应来制定策略。

囚徒困境是说明博弈论中各种概念的一个经典例子。在困境的一个修改版中(如图所示):

    • 如果一个玩家坦白(C),而另一个玩家撒谎(L),坦白者将入狱1年,而撒谎者将入狱8年。

    • 如果两个玩家都选择坦白,他们都将入狱7年。

    • 如果两个玩家都选择撒谎,他们都将只入狱2年。
在标准博弈版本的囚徒困境中,两名囚犯同时做出是否坦白的决定,而且在做决定时不知道对方的选择。这种情况下的博弈通常使用标准式表示,展示所有可能的策略和结果。相对的,在拓展博弈版本中,囚犯们的决策是顺序进行的,第二个做决定的囚犯可以知道第一个囚犯的选择。这种情况下的博弈通过决策树表示,更加强调了信息的动态变化和决策的顺序

这两种形式的博弈各有其表达方式,其中标准式可以转换为扩展式来表示信息集和决策路径,反之亦然。通过这些表示,可以更深入地分析和理解各种策略及其可能的结果。

图 1 囚徒困境的例子

除了标准型和扩展型博弈之外,还有在复杂的马尔可夫博弈或扩展型博弈中,元博弈(meta-game)作为一种高级抽象,经常被用于分析这些博弈。元博弈助于探索这些博弈内的策略学习,其焦点不是孤立的行动,而是由博弈动态产生的更广泛的策略。在高级的正规形式背景下,策略集由当前玩家所采用的策略组成。元策略是混合策略,它们在元博弈中为策略集分配概率。

3) 传递性博弈与非传递性博弈

为了简化讨论,我们将重点限制在两人零和对称博弈上。
  • 传递性博弈:在这种博弈中,策略或结果遵循传递性关系。正式地,对于所有的策略πi, πj, πk ∈ Π,如果u(πi, πj) > 0 且 u(πj, πk) > 0,则必然有u(πi, πk) > 0。这种传递性属性简化了战略环境,允许对策略进行序数排名。
  • 非传递性博弈:与传递性博弈相反,存在策略πi, πj, πk ∈ Π,使得u(πi, πj) > 0 和 u(πj, πk) > 0,但u(πi, πk) ≤ 0。这在策略之间引入了循环关系,从而使博弈复杂化。这种复杂性通常导致混合策略均衡,即玩家在多个策略之间随机选择以最大化其预期收益。非传递性博弈的一个典型例子是“石头-剪刀-布”,其中没有单一策略能够一致地胜过其他所有策略。

在现实世界环境中,博弈的复杂性超出了理论模型的范围。有文献认为,现实世界博弈有两个显著特征:首先,参与实践通常会导致性能提升;其次,存在大量性质上不同的策略,每种策略都有其独特的优势和劣势。在这样的博弈中,策略形成了一个类似于陀螺的几何拓扑结构,其中垂直轴代表策略的性能,径向轴代表最长循环的长度。

4) 阶段博弈与重复博弈

  • 阶段博弈(或一次性博弈):只进行一次的博弈,即玩家之间的一次性交互。囚徒困境是一个著名的阶段博弈例子。
  • 重复博弈:基于阶段博弈并多次进行的博弈。正式地,基于阶段博弈G的重复博弈定义为在T个周期内玩G,其中T可以是有限或无限的。重复博弈中的策略是历史依赖的,即它们可以依赖于过去所有回合的完整序列。值得注意的是,阶段博弈或重复博弈既可以以正常形式表示,也可以以扩展形式表示。

5)Nash Equilibrium(纳什均衡)

为了简化,我们用πi表示玩家i的策略,π−i表示除玩家i之外所有玩家的策略集合。给定π−i,玩家i的最佳响应(BR)是最大化玩家i收益的策略:


在扩展式博弈中,玩家的行为序列由Qi表示,代表玩家i采取的序列形式行动。序列形式策略由函数pi: Qi → R封装,该函数将每个序列q ∈ Qi映射到其执行的相关概率上。 ε-Best Response(ε-最佳响应): 策略πi是策略π−i的ε-最佳响应,如果:

其中ε是一个预先指定的阈值。 定义Nash Equilibrium(纳什均衡): 如果一个策略组合(π1*, π2*, ..., πn*)是一个Nash均衡(NE),对于每个玩家i: 

这意味着,在给定其他所有玩家的策略下,没有玩家能通过单方面改变其策略来增加其收益。相应的,如果将收益增加拓展到不超过ε,则可以定义 ε-NE。然而,在复杂博弈中计算Nash均衡通常是不可行的,这导致一些研究人员利用α-Rank和相关均衡作为替代方案。此外,一些研究还采用复制者动态(Replicator Dynamics)作为分析和理解这些博弈中策略演化的方法。

6) 团队博弈

两人零和博弈框架可以自然地扩展到基于团队的零和博弈。Von Stengel和Koller分析了涉及单个团队与对手竞争的零和正常形式博弈。在这种团队博弈中,考虑一个由T = {1, 2, ..., n-1}表示的团队,玩家n是对手(D)。在这种零和正常形式团队博弈中,对于任意玩家i, j ∈ T,效用函数满足ui(π) = uj(π) = uT(π)和uD(π) = -(n-1)uT(π)。 零和单团队单对手正常形式博弈也可以扩展到扩展式博弈的领域。对于任意玩家i, j ∈ T和所有终端节点z ∈ Z,效用函数满足ui(z) = uj(z) = uT(z)和uD(z) = -(n-1)uT(z)。 在队友无法协调其策略的场景中,团队最大最小均衡(TME)成为最合适的解概念。我们用IT表示由Si∈T Ii定义的信息集,AT表示在IT内信息集中可访问的行动集合。 在队友无法协调策略的情况下,TME提供了一种解决方案,它确保了团队在面对对手时能够采取最优的应对策略,即使团队内部成员之间缺乏直接的沟通或协调。这种均衡概念在理解和分析多玩家团队竞争环境中非常有用。

玩家i的序列集合由Qi表示,它代表了玩家i所采取的序列形式行动。序列形式策略通过函数pi:Qi→R来封装,该函数将每个序列qQi映射到其对应的执行概率上。正式地,团队最大最小均衡(TME)的定义可以表述为:

在团队博弈中,TME是一种均衡状态,它要求团队成员采取一种策略组合,使得无论对手(或外部环境)采取何种策略,团队都能获得尽可能高的最小收益。这种均衡是在考虑到团队成员之间可能存在的合作或协调限制下达到的。在计算TME时,通常需要考虑到团队成员之间的策略依赖性和外部环境的策略空间。

对于序列形式博弈(如扩展式博弈),TME的计算可能更加复杂,因为它需要考虑到每个玩家在不同信息集上的行动序列及其概率分布。在实际应用中,TME的计算可能通过求解一个大型的线性规划问题或使用其他优化算法来实现。这些算法需要处理大量的约束条件,以确保得到的策略组合满足TME的定义和条件。类似于标准形式博弈中的论证,也可以推断出在扩展形式博弈中,如果不考虑任何退化情况,那么团队最大最小均衡(TME)是唯一存在的,并且这个TME与团队在纳什均衡下的效用最大化是一致的。

C. 自博弈评估指标

在本节中,我们介绍了多种自博弈评估指标,包括NASHCONV(第II-C1节)、Elo(第II-C2节)、Glicko(第II-C3节)、WHR(第II-C4节)和TrueSkill(第II-C5节)。其中,NASHCONV用于衡量与纳什均衡的距离,而其他四个指标则用于评估相对技能水平,并在表I中进行了比较。需要注意的是,尽管存在许多其他评估指标,但这里强调的指标是该领域中最广泛使用的。

表I:相对技能评估指标比较

1)NASHCONV:Nash收敛性(NASHCONV)

NASHCONV作为一种度量标准,用于测量特定策略与纳什均衡之间的偏差。较低的NASHCONV值意味着该策略更接近纳什均衡,暗示没有任何玩家可以通过单方面偏离该策略而获得利益。其正式定义如下:

其中,π 表示所有参与者的联合策略组合。特别地,在双玩家博弈的背景下,这种与纳什均衡的偏差通常被称为可利用性(exploitability)。即,如果某个策略的可利用性较低,那么它就更接近于一个纳什均衡,意味着没有任何玩家能通过单方面改变策略来获得更大的收益。

2) Elo

Elo系统基于一个假设运作,即每位玩家在每场博弈中的表现是一个正态分布的随机变量,其均值代表该玩家的当前等级分。在玩家A与玩家B之间的比赛中,RA 和 RB 分别代表玩家A和玩家B的当前等级分,EA 和 EB 分别表示玩家A和玩家B的预期得分(或获胜概率),可以表示为:

为了方便起见,我们使用逻辑函数来近似概率(使用以10为底的对数逻辑曲线,并选择400作为比例因子来缩放和归一化评分差异):

请注意,EA + EB = 1。SA 是玩家A在比赛中的实际结果(胜为1,平为0.5,负为0)。SB = 1 - SA。比赛结束后,会根据实际结果与预期结果之间的差异来更新评分。调整公式为:

K 是一个缩放因子,通常由应用的具体领域决定,并控制单场比赛可能产生的最大评分变化。如果两名玩家的评分非常接近,那么预期结果将接近 0.5。任何一方获胜都会导致其评分适度增加。相反,如果评分差异显著,那么预期结果将严重偏向某一方。如果评分较高的玩家获胜,其评分将增加的值远小于 K,这反映了其胜利的预期性质。然而,如果评分较低的玩家获得意外胜利,其评分将激增,增加值接近 K,这表示了一场令人惊讶的逆转。

然而,Elo系统也存在挑战和局限性。首先,Elo系统假设所有博弈都同等重要,但这在所有领域可能并不成立。其次,K 值通常保持不变。然而,一个动态的 K 因子可能更合适,特别是对于新加入评分池的玩家或在博弈重要性不同的场景中。第三,标准的 Elo 系统没有引入衰减机制来考虑在不活跃期间技能可能下降或提高的情况。第四,基本的 Elo 系统是为一对一博弈设计的。将其适应团队或多人场景,如团队运动或在线多人博弈,可能具有挑战性。最后,Elo 评分系统的一个重要局限性是它不适合非传递性水平较高的博弈。

3)Glicko

Glicko 系统通过引入玩家评分中的不确定性或可靠性度量(称为评分偏差)来改进 Elo 系统。其主要动机是考虑玩家表现的差异性和技能随时间可能发生的变化。Glicko-2 系统是原始 Glicko 系统的扩展,它进一步细化了这些概念,并引入了评分波动性 σ,表示玩家评分预期波动的程度。

在 Glicko-2 系统中,r 表示玩家的当前评分,RD 表示玩家的评分偏差,σ 表示玩家的波动性。将评分和评分偏差转换为 Glicko-2 量表:

然后,计算 v,它表示基于博弈结果对玩家评分的估计方差;E(μ, μj, φj) 表示评分为 μ 的玩家击败评分为 μj 的对手 j 的概率;Δ 表示仅基于博弈结果 sj 的估计改进:

σ 的更新更为复杂,需要通过迭代过程来求解其新值 σ'。然后,计算新的 μ' 和 φ':

计算完成后,将评分和评分偏差从 Glicko-2 量表转换回原量表:

4)WHR

全历史评分(WHR)系统是一个贝叶斯评分系统,旨在根据玩家的整个博弈历史来估计其技能。它特别适用于处理玩家技能的时间动态。Ri(t) 表示玩家 i 在时间 t 的 Elo 评分。类似于等式(11)和等式(12),EA(t) 和 EB(t) 分别表示在时间 t 时玩家 A 和玩家 B 的预期得分(或获胜概率):

此外,WHR 假设每个玩家 i 的评分是一个维纳过程(Wiener process):

给定 r′=RA(t1) 和 r′′=RA(t2),其中 RA(t) 表示玩家 A 在时间 t的 Elo 评分,我们可以利用维纳过程的性质来估计 r′ 和 r′′ 之间的关系。

那么评分的变化量σ可以用ω和时间差∣t2−t1∣来表示,即σ=ωpt2−t1∣,其中p是一个与具体实现相关的参数,可能用于调整时间差对评分变化的影响。

5)TrueSkill

TrueSkill 是一个基于概率图模型的评分系统,它使用贝叶斯推断来处理多玩家多团队场景。TrueSkill 2 是 TrueSkill 的扩展版本,它考虑了更多因素,如玩家的经验、团队归属以及博弈特定因素(如击杀数)。在 TrueSkill 中,每个玩家的技能 si 被表示为一个高斯分布 N(μi,σi2),其中 μi 是技能均值,σi2 是技能方差。玩家的表现 pi也被表示为一个高斯分布 N(pi,si,β2),其中 β 是一个与表现噪声相关的参数。

当两个团队进行比赛时,TrueSkill 计算两个团队表现的差异 d。如果 d>ϵ(其中 ϵ 是一个小的正阈值),则团队 1 击败团队 2。TrueSkill 的更新机制使用无向概率图模型中的和积消息传递算法来迭代地精炼技能估计,从而为每个玩家提供准确可靠的评分。

III 统一的自博弈框架

基于现有的自博弈工作,我们提出了一个增强的自博弈框架,该框架具有更高的表达能力和更好的泛化能力。该框架能够处理多同质玩家的一般和博弈(general-sum games),其中同质玩家指的是具有相同策略集合的玩家。虽然同质玩家是异质玩家的一个子集,但后者可以通过扩展输入向量的维度(即嵌入代理身份信息)来重新表述为前者。
  • 在我们的框架中,所有玩家共享一个共同的策略集(或策略网络),最大数量固定的种群。在每次迭代中,一个新的策略被初始化用于训练,对手策略从现有的策略群体中采样。在此迭代过程中,对手策略通常保持不变,而只有正在训练的策略会更新。在培训过程之后,新策略将替换策略总体中的某个策略。然后使用评估指标来评估更新后的策略群体的性能。基于这一表现,下一次迭代调整了对手的采样策略。重复此过程。

此外,我们将自我博弈算法分为四个主要组别:传统自我博弈算法(第III-B节)、PSRO系列(第III-C节)、基于持续训练的系列(第III-D节)和基于遗憾最小化的系列(第III-E节)。我们分析了这四类算法在各自部分中如何与我们的框架保持一致,并在每个类别中介绍了代表性算法。此外,在第三部分F中,我们讨论了这四类之间的差异以及它们与我们提出的框架的联系。我们还解释了为什么我们的框架比现有的框架更通用。此外,我们在表II中总结了每个类别框架内关键算法的主要元素。

A.框架定义

首先,框架的输入定义如下:Π:策略群体中的每个策略πi都基于策略条件函数h(i),该函数由特定算法确定。我们将在后续部分介绍这个策略条件函数。为了简化,我们用πih来表示每个策略πi(·|h(i))。重要的是要注意,i指的是策略总体中的第i个策略,而不是玩家。此外,超参数N表示策略总体Π的大小,而不是博弈玩家的数量。此外,Π可以通过两种不同的方式进行初始化。
  • 首先,Π可以被视为用N个占位符策略进行初始化,这意味着在实践中并没有对策略进行实际的初始化。相反,每个策略将在训练迭代中实际初始化(算法1中的第3行)。我们将这种方法称为占位符初始化。
  • 其次,Π可以用N个真实策略进行初始化,这些策略可能包括随机初始化或预训练模型。我们将这种方法称为实际初始化。如果策略πih作为占位符策略,则被视为无效策略;否则,被视为有效策略。此外,表II更清晰地说明了主要自我博弈算法不同类别中Π的初始化和h(i)的表达式。Σ := {σi }Ni=1 ∈ RN ×C1:策略总体的交互矩阵。σi ∈ RC1表示策略i的对手采样策略。即,σi说明了如何针对策略i采样对手的策略。
  • 例如,让σi表示每个对手策略的概率。在这种情况下,C1 = N^(n-1),其中n表示玩家的数量。或者,σi也可以被视为采样网络内的采样参数。特别是在两人博弈中,如果C1 = N且σij表示策略i针对策略j进行优化的概率,则Σ可以用有向交互图来表示)。
  • 要注意,与原始的PSRO框架不同,这里的σi不是策略i的元策略。相反,在两人设置中,如果我们的框架中的σi是针对策略i的对手的元策略,那么我们的框架可以简化为原始的PSRO框架。

当C1 = N,σij表示策略i相对于策略j优化的概率时,我们可以考虑各种传统的自我  博弈算法的例子:在顶部部分,我们将Σ∈R3×3定义为{σi}3i=1。在底部部分,我们展示了有向交互图,其中每个节点
  • F : RN × C2 → RN × C1:一个元策略求解器(Meta-Strategy Solver, MSS)F接受性能矩阵P := {pi}Ni=1 ∈ RN × C2作为输入,并输出一个元策略矩阵Σ := {σi}Ni=1 ∈ RN × C2,作为其输入,并产生一个新的交互矩阵∑∈RN×C1作为其输出。pi是策略i的表现。例如,pi可以描述为相对技能,如Elo评级(C2=1),也可以描述为收益张量(C2=Nn-1,其中n是参与者的数量)。特别地,在两人对称零和博弈中,预期收益可以作为评估指标。在这种情况下,∑是一个方阵(C2=N)。此外,表二总结了这四类代表性自我博弈算法的MSS。接下来,框架内的核心流程如下:• 对于 epoch e ∈ [[E]](算法1第1行):E表示整个策略群体的总迭代次数。例如,如果算法只将新策略引入群体而不更新现有策略,则E=1。这意味着,在每次迭代中,只有无效的政策才有可能被选择进行培训,并转化为有效的政策,而有效的政策则保持不变。相反,如果有效的政策在整个算法中多次更新,则E>1。事实上,E准确地反映了所执行的更新次数。此外,表二总结了不同类别的自我学习算法的E值。• 初始化πih(算法1第3行):πih的初始化可以根据所使用的算法而变化。例如,它可以通过利用预先训练的模型或通过最近更新的策略进行随机初始化。我们为每个算法系列提供了初始化过程的详细说明。此外,这些内容在表二中进行了总结。
  • ORACLE(πi,σi,Π)(算法1第4行):ORACLE是一个抽象的计算实体,它返回一个符合特定标准的新策略。在这里,我们将ORACLE分为三种类型。
    • 一种常见类型是BR预言机,旨在识别针对对手策略的最佳应对策略,包括寻找NE。然而,这通常需要大量的计算工作。这种计算需求可能是一种限制,特别是在复杂的环境中或具有较大的动作空间的情况下。
    • 为了减轻计算需求,引入了近似最佳响应(ABR)预言机,可以使用RL(算法2)、基于进化理论的方法(算法3)或遗憾最小化方法(算法4)等技术进行计算。
    • 其他特制的ORACLE要么是为新的MSS量身定做的,要么是为了增强多样性而引入的。

B. 传统的自我博弈算法

传统的自我博弈算法涉及智能体通过反复与自己博弈弈来改进其策略,允许他们在没有外部输入的情况下探索各种策略并增强其决策能力。这些算法可以从代理开始训练,针对其最新版本进行训练,帮助识别和利用弱点。此外,其他方法包括针对不同迭代中的一组策略进行训练,使代理能够开发出鲁棒性和自适应性的策略。在本节中,我们将解释传统的自我博弈算法如何融入我们的框架,并介绍代表性的传统自我博弈方法,从简单的形式到更复杂的形式。

1)融入统一的框架:

我们可以使用以下设置将传统的自我博弈算法纳入我们提出的框架(算法1)。

  • 第一,Π使用占位符初始化,这意味着最初,这些策略是占位符,而不是实际初始化的策略。使用这种初始化方法是因为传统自我博弈算法中的策略群体旨在随着每次迭代而增长。
  • 其次,我们设置E=1,因为在传统的自我博弈算法中,每次迭代中可能只选择一个无效的策略进行训练,从而将其转化为一个有效的策略。在这里,策略人口规模N作为人口中有效策略数量的上限。换句话说,我们使用N次迭代来优化策略。
  • 第三,正在训练的策略πih可以以一般的方式初始化。例如,该策略可以随机启动,这意味着从头开始学习过程。更常见的是,πih由πi−1(·|h(i − 1))初始化,允许基于最新训练策略的增量学习和适应,以加速收敛。
  • 第四,由于传统自博弈戏算法中的策略没有条件,我们简单地设置h(i) = ∅。

接下来,我们概述传统的自我博弈方案。为了简单起见,我们根据以下假设进行操作:假设1:在两人对称博弈中,C1=N,σij表示政策i针对政策j进行优化的概率,导致PNj=1σij=1,∀i。基于假设1,我们可以进一步推导出以下重要推论:推论1:在传统的自我博弈算法中,交互矩阵Σ是一个下三角矩阵。证明。保单数量会随着时间的推移而逐渐增加。因此,当选择策略i进行训练时,只有策略j(j≤i)已经过训练并具有有意义的结果。其他政策都是无效政策。因此,我们专门选择策略j(其中j ≤ i)作为策略i的对手。

2) 原始自我博弈:

在原始自我博弈中,智能体通过与最新版本竞争来训练,确保一致和协调的学习。原始自博弈MSS:

无论P是什么,MSS都会产生相同的交互矩阵,类似于策略的迭代优化过程。虽然这个MSS很简单,但它被用于许多进一步的工作中,所以我们称之为vanilla MSS。尽管原始自博弈在传递性博弈中是有效的,但它可能会导致代理在非传递性博弈中(如石头剪刀布)形成循环学习模式。

3) 虚拟自我博弈:

虚拟博弈(FP)是一种博弈论中的学习算法,其中每个玩家都能对对手使用的策略的经验频率做出最佳反应。如果对手的策略是静态的,FP可以找到NE。基于FP的直觉,引入了虚拟自我博弈(FSP),使智能体与过去的自己进行博弈,以学习最优策略,提高原始自我博弈的鲁棒性。神经虚拟自我博弈(NFSP)是一种现代变体,它将FSP与深度学习相结合技术。它使用神经网络来近似BR。在NFSP和FSP的原始版本中,使用了两种不同类型的代理记忆:一种用于记录代理自己的行为,另一种用于捕获对手的行为。然而,在最近的方法中,经常采用随机抽样来近似对手的平均策略,从而消除了维护两种不同类型代理记忆的需要。因此,FSP的MSS:

在FSP中,MSS继续生成一个恒定的交互矩阵。与普通自我博弈相比,这种方法通过采样自己策略的旧版本作为对手策略,增强策略的鲁棒性。

4) δ-均匀自博弈:

δ-均匀自博弈由引入。超参数δ的范围在0到1之间,用于选择最近δ(百分比)的策略进行统一采样,以生成对手策略。当策略i处于训练阶段时,根据推论1,只有前面的i-1个策略具有意义。作为政策i的反对者,我们从离散均匀分布[δ(i − 1), i − 1]中选择政策。当δ=0时,系统保留了完整的历史记忆,而δ=1意味着只使用最新的政策。因此,我们可以得到δ-一致自博弈的MSS:

其中⌈·⌉是向上取整函数,它提供大于或等于给定输入数的最小整数。在δ-均匀自博弈中,MSS生成一个恒定的交互矩阵。特别地,如果δ=0,它对应于FSP,如果δ=1,它对应于普通的自博弈。

5)优先虚拟自我博弈:

优先虚拟自我博弈(PFSP)利用一个优先函数来为优先级更高的智能体分配更高的选择概率。在这里,P代表胜率,具体定义为Pij = Prob(πi击败πj)。PFSP的MSS由算法5给出。

函数f : [0, 1] → [0, ∞)是一个优先级函数。例如,f (x) = (1 − x)p,其中p > 0,表示针对当前训练策略的更强策略有更高的机会被选为对手。或者,f = x(1− x)意味着水平相似的玩家更有可能被选为对手。此外,从更广泛的角度来看,P也可以由其他指标进行评估。在中,可以使用类似的MSS来为表现更好或更难击败的策略分配更高的概率。

6) 独立RL:

独立RL是MARL中一种完全去中心化的方法。这简化了学习过程,在竞争或对抗环境中非常有用,但在需要合作的情况下可能会导致次优结果。独立RL可以被视为自我博弈算法的一个特例。在每次迭代中,要训练的策略πih使用之前的策略πi-1(·|h(i-1))进行初始化。独立RL的MSS简化为单位矩阵

独立RL与普通自我博弈之间的区别在于训练过程中如何处理对手的策略。在普通自我博弈中,对手的策略通常是固定的,这使得训练过程变得平稳。相比之下,在独立RL中,对手的策略随着正在训练的策略一起演变,导致训练过程变得非平稳。此外,如果在独立RL中使用离策略RL方法,那么即使样本是由不同的策略生成的,它们仍然可以用于训练。这允许智能体更有效地利用过去的经验,并从更广泛的场景中学习。

C. PSRO系列算法

类似于传统的自我博弈算法,PSRO系列算法从一个单一策略开始,并通过引入新的oracle(即针对其他智能体当前元策略的最优响应策略)来逐渐扩展策略空间。此外,PSRO还采用EGTA来更新元策略分布,从而在策略选择中引入一定程度的探索,以降低过拟合的风险。

1)融入统一的框架

我们可以使用以下设置将传统的PSRO系列算法纳入我们提出的框架(算法1)。
  • 类似于传统的自我博弈算法,我们也使用占位符初始化来初始化Π。
  • 我们设置E=1,N可以视为原始PSRO算法中策略种群大小的上限。
  • 在PSRO系列算法的上下文中,我们的玩家πih的策略也可以以一般方式进行初始化。
  • 我们简单地设置h(i)=∅,因为PSRO系列算法的策略不需要任何的条件函数
  • 我们的框架在定义σi的方式上与传统的PSRO模型有所不同。在我们的框架中,σi不是策略的元策略,而是对手采样策略。这意味着在PSRO系列算法中,σi代表针对策略i的对手的元策略。
  • 第六,与传统自我博弈方法相比,PSRO系列的MSS通常更复杂。例如,一些MSS结合了来自不同类型博弈均衡的概念。

为了简化,我们也遵循假设1。类似于传统的自我博弈算法,我们可以推导出推论2: 在PSRO系列算法中,交互矩阵Σ是一个下三角矩阵。

2)双Oracle:

双Oracle(DO)算法传统上仅应用于两人标准型博弈。在这种上下文中,我们可以利用收益矩阵作为评估矩阵。交互矩阵可以用全零初始化,以反映策略之间初始不存在交互的情况。然后,DO的MSS(混合策略集)可以如算法6中所述进行概述。对手采样策略σi对应于受限博弈中对手的纳什均衡策略。因此,在DO中,oracle是一个最佳响应(BR)而不是近似最佳响应(ABR),它计算的是针对受限博弈当前NE对手策略的最佳响应。在两人标准型博弈的上下文中,DO理论上可以实现完整博弈的纳什均衡。

3)PSRO: 

PSRO(Policy Space Response Oracle)算法将双Oracle(DO)算法扩展到更复杂的博弈领域,超越了传统的两人标准型博弈。PSRO首先引入了MSS(混合策略集)的概念,这是一个比简单计算纳什均衡更广泛的概念。MSS框架允许在不同博弈设置下更灵活地表示战略解决方案。PSRO的许多变体都致力于设计新的MSS,以更好地捕捉这些更复杂博弈中战略博弈的不同方面。在原始的PSRO框架中,oracle是通过类似于算法2中描述的RL技术来计算的。这使得算法能够有效地处理庞大且复杂的策略空间,适用于广泛的博弈场景。

4)PSRO变体:

传统的PSRO算法在最近的研究中得到了大量的扩展。一些研究关注于使PSRO在不同场景下计算上更可行或实现快速收敛。例如,通过建立RL工作者的层次结构,Pipeline PSRO实现了PSRO的并行化,并同时保证了收敛性。Efficient PSRO引入了无限制-限制(URR)博弈来缩小对手策略的选择范围,从而避免了传统PSRO中元博弈模拟的需要,并且类似于Pipeline PSRO,Efficient PSRO也能够在并行中解决URR。此外,与传统的PSRO不同,后者将种群策略的整合限制在博弈的初始状态,XDO允许在所有信息状态下进行这种整合。它基于信息状态的数量确保了线性收敛到近似纳什均衡,从而提高了在扩展型博弈中的可行性。ODO将在线学习的无遗憾分析与双Oracle方法相结合,以改进收敛到纳什均衡的速度和平均收益。Anytime PSRO和Self-play PSRO旨在将更难以被利用的策略纳入策略种群中,从而促进更快的收敛。此外,这些变体还通过引入新的策略评估机制和优化策略选择过程,进一步提高了PSRO算法的性能和适用性。随着代理数量的增加,确定最佳响应(BR)变得极具挑战性,呈指数级增长。为了应对均值场博弈中的这种复杂性,引入了均值场PSRO(Mean-field PSRO)。此外,由于求解多玩家一般和博弈(general-sum games)中的纳什均衡在计算上不可行,以及NE选择问题,Müller等人提出了α-PSRO。α-PSRO不采用NE,而是在MSS中引入了α-rank,这是一种在多玩家一般和博弈中唯一且可在多项式时间内求解的度量。同时,该方法还结合了基于偏好的最佳响应(PBR)oracle。与α-PSRO类似,提出了JPSRO来处理多玩家一般和博弈,它利用相关均衡和粗略相关均衡(CCE)作为NE的替代方案,使计算在多玩家一般和博弈中变得可行。JPSRO还提出了基于CE和CCE的MSS。在JPSRO的基础上,NeuPL-JPSRO利用了迁移学习的优势。除了共享参数θ外,NeuPL-JPSRO中的每个策略还由其策略嵌入向量vi表征。这种方法避免了每次迭代都需要从头开始训练,从而提高了效率。

其他研究则侧重于策略多样性,因为在高度传递性博弈中推导单一策略通常意义不大。在两玩家零和博弈中引入了一个开放式的框架,该框架增强了策略种群的多样性,并引入了博弈景观(gamescape),它几何地表示了博弈中开放式学习的潜在目标。该研究提出了两种算法:Nash响应PSRON和修正Nash响应PSROrN。这两种算法都使用非对称收益矩阵作为其性能评估指标。与DO类似,它们采用基于Nash的MSS(算法6)。与PSRON相比,PSROrN在ABR oracle中增加了一个步骤,以关注它们打败或打平的对手,并忽略它们失败的对手。使用行列式点过程(determinantal point process)来评估多样性,并通过在PSRO oracle中引入多样性项来引入多样化PSRO。这种修改也可以很容易地应用于FP和α-PSRO。制定了行为多样性和响应多样性,并将它们纳入PSRO oracle中。策略空间多样性PSRO(Policy Space Diversity PSRO)定义了一个名为种群可剥削性的多样性度量,有助于实现全博弈的NE。

5)R-NaD:

尽管R-NaD最初被描述为利用带有正则化组件的进化博弈论,但在这里我们将其归类为具有特殊oracle计算技术(算法3)的PSRO系列。该技术分两个阶段执行:第一阶段根据正则化策略转换奖励,使其依赖于策略;第二阶段应用复制动态(replicator dynamics)直到收敛到固定点。重要的是,在每次迭代中,添加到策略种群Π中的oracle来自奖励转换后的博弈,而不是原始问题的oracle。然而,这种方法确保了只要博弈是单调的,策略就会收敛到原始博弈的NE。R-NaD的MSS是如等式(33)所述的普通MSS,与自博弈的普通MSS相同。该等式说明了每次迭代中达到的固定点(即oracle)被用作下一次迭代的正则化策略。

D. 基于持续训练的算法系列

在PSRO算法系列中,存在两个主要挑战。首先,在有限的预算下操作时,通常需要在每次迭代中截断ABR操作,这可能会将次优训练的反应引入种群中。其次,每轮重新学习基本技能的冗余过程不仅效率低下,而且在面对越来越强大的对手时变得难以为继。为了应对这些挑战,基于持续训练的算法系列提倡对所有策略进行反复的持续训练。即,所有有效的策略都有可能被选中进行训练。

1)融入统一的框架:

我们可以使用以下设置将这些基于持续训练的算法系列集成到我们提出的框架(算法1)中:

  • 我们使用实际初始化来初始化策略种群Π,因为在基于持续训练的算法系列中,策略种群中的所有策略都是一起训练的,而不是随着每次迭代而增长。
  • 我们设置E = Emax > 1,这表示策略种群中每个策略优化的最大轮次。换句话说,每个独特的策略都会经历总共Emax次的迭代训练。
  • 由于每个策略都经历了Emax次的训练,我们使用πi(·|h(i))来初始化πih。这意味着策略更新是自引用的。

为了简化,我们也采用了假设1。与推论1和推论2不同,考虑到所有策略的持续训练过程,我们推导出了推论3: 在基于持续训练的算法系列中,交互矩阵Σ通常不是下三角矩阵。

2)FTW:

Quake III Arena Capture the Flag是一款著名的3D多人第一人称视频游戏,两队竞争以捕获尽可能多的旗帜。For The Win(FTW)代理被设计在该游戏中达到人类水平的熟练度。FTW的一个关键方面是其在RL中采用基于持续训练的自博弈。具体来说,它并行训练N个不同的策略,这些策略相互竞争和协作。当策略i正在接受训练时,FTW从种群中采样其队友和对手。特别地,在每个团队只包含一名成员的场景中,它可以无缝地集成到我们的框架中,使用后续的MSS:

这基本上意味着交互图是密集连接的。此外,所有策略都依赖于一个由φ参数化的统一策略网络。因此,πi(·|h(i))可以恰当地表示为π(·|h(i))。此外,由于这些策略不依赖于任何外部参数,因此可以直接将条件函数h(i)表示为∅(空集)。

3)NeuPL

NeuPL引入了另一个关键创新:它采用了一个统一的条件网络,其中每个策略都是针对特定的元博弈混合策略进行调整的。这对于实现跨策略迁移学习至关重要。由于NeuPL依赖于一个由θ参数化的统一条件网络,πi(·|h(i))可以简洁地表示为πθ(·|h(i))。此外,鉴于NeuPL中的策略依赖于对手采样策略σi,因此将h(i)定义为σi是恰当的。

4)Simplex-NeuPL:

Simplex-NeuPL在NeuPL的基础上进行了扩展,旨在实现任意混合最优性,这意味着制定的策略应该能够灵活地应对各种对手,包括那些可能不具备同等竞争力的对手。为了从几何角度模拟种群学习过程,Simplex-NeuPL引入了种群单纯形的概念。与其前身类似,Simplex-NeuPL集成了一个条件网络来表征策略,该策略表示为πθ(·|h(i)),其中h(i) = σi是条件对手采样策略。有趣的是,σi并非一定来自MSS,而是作为种群单纯形中的一个样本被抽取出来。这种采样机制增强了鲁棒性。

E. 基于遗憾最小化的算法系列

另一类自我博弈算法是基于遗憾最小化的。这类算法与其他类别的主要区别在于,它们优先考虑长时间内的累积收益,而不仅仅是单个回合。这种方法导致了更激进和适应性更强的策略,这对于避免在时间推移中被对手利用至关重要。此外,这些算法要求玩家在多轮博弈中推断并适应对手的策略。这种情况在重复博弈中更为常见,而不是在阶段博弈中。例如,在德州扑克或狼人杀等博弈中,玩家必须使用欺骗、隐藏和虚张声势来争取整体胜利,而不仅仅是赢得单场比赛。值得注意的是,虽然传统的基于遗憾最小化的自我博弈通常不使用强化学习,但随后的许多研究工作已经将遗憾最小化与RL相结合,以实现强大的性能。在本节中,我们还将详细讨论传统的基于遗憾最小化的方法,为理解如何将遗憾最小化与RL相结合以提高性能奠定基础。

1)融入统一的框架:

我们可以将基于遗憾最小化的算法系列整合到我们提出的框架(算法1)中,具体设置如下:
  • 类似于传统的自我博弈算法和PSRO系列,我们使用占位符初始化来初始化策略集Π。
  • 我们设置E=1,并将N视为优化策略的最大迭代次数。
  • 我们使用πi-1(·|h(i-1))来初始化πih,以利用最新的训练策略。更具体地说,h(i) = h(i-1)且πh = πh-1。
  • 在每个迭代i中,h(i)表示基于遗憾最小化的自我博弈算法需要存储的特定元素。重要的是要注意,基于遗憾最小化的系列算法非常依赖于h(i)中包含的信息。例如,在基本的反事实遗憾最小化(CFR)中,需要在h(i)中为每个玩家的每个信息集中的每个动作存储反事实遗憾,并且一旦h(i)确定,就通过遗憾匹配来定义相应的策略。我们将在第III-E2节中详细讨论基本的CFR。
  • ABR操作在算法4中描述,其关键点是将新的基于遗憾最小化的信息纳入h(i)。值得注意的是,虽然原始的CFR同时更新所有玩家的遗憾,但这个oracle(算法4)按顺序更新每个玩家的遗憾。这意味着在迭代i中,玩家2的遗憾是在考虑玩家1已更新遗憾之后更新的。即,h(i)在迭代i期间是变化的。这种调整不仅已被证明在经验上加速了收敛速度,而且还具有理论上的误差界。
  • 每个πih代表所有玩家的策略,在迭代i中,玩家j使用策略πih(j)。

此外,基于遗憾最小化的算法系列的MSS是如等式(33)中所述的普通MSS。我们可以推导出推论4:在基于遗憾最小化的算法系列中,交互矩阵Σ是一个下三角矩阵。更具体地说,它是一个单位下移矩阵,仅在次对角线上有1,其余位置为0。

2)原始CFR:

遗憾衡量的是实际收益与采用不同策略可能达到的最佳收益之间的差异。博弈论中的遗憾匹配算法通过从过去的结果中学习来优化迭代博弈中的决策。更具体地说,它涉及基于累积的积极总体遗憾来选择策略。总体遗憾程度较高的策略通常更有可能被选择,因为玩家会寻求纠正过去的不足。每轮结束后,玩家更新每种策略的整体遗憾值。当每个玩家都致力于减少他们的平均总体遗憾时,他们的平均策略将随着时间的推移而趋近于NE的近似值。然而,这种传统的遗憾最小化算法主要适用于标准形式的博弈,因为在扩展形式的博弈中计算总体遗憾是具有挑战性的。虽然理论上可以将扩展形式博弈转换为正常形式博弈,但这种转换会导致状态呈指数级增长,使其对于复杂的扩展形式博弈来说是不切实际的。提出了针对信息不完整扩展形式博弈的反事实遗憾(CFR)最小化。此处,它被称为原始CFR,以区别于后续的12该领域的进步。

Vanilla CFR 涉及维护策略和每个信息集的反事实遗憾。理论上,即时反事实遗憾是针对每个信息集的,这些即时反事实遗憾的聚合可以作为总体遗憾的上限。因此,问题可以从最小化总体遗憾到最小化每个信息集中的即时反事实遗憾来简化。这种简化显著降低了计算复杂度。接下来,对原始CFR进行更详细的描述。在本文中,πi用于表示迭代i的策略,而原始论文使用σ。进行这一变化是为了保持本文中讨论的一致性。此外,我们用j来表示玩家j,πi(j)表示玩家j在迭代i时使用的策略。反事实值vj(π,I)表示当除玩家j外的所有玩家都遵守策略π时,达到信息集I时的期望值:

在原论文中,这是一种未规范化的反事实效用形式。基于这个反事实值,即时反事实遗憾被定义为


其中,πi|I→a 表示在第 i 次迭代中,玩家 j 在信息集 I 处以概率为 1 选择动作 a。此外,正的即时反事实遗憾是:

从理论上讲,总体平均遗憾 RjT 受正即时反事实遗憾之和的限制:

因此,基于上述讨论的理论,可以将遗憾最小化的整体问题分解为许多较小的遗憾最小化问题。这种方法使得对于规模不是过大的广延式博弈来说,问题变得易于管理。在实际应用中,主要关注的是即时反事实遗憾。为了简化讨论,我们经常在讨论中省略“即时”这个词,从而直接提及反事实遗憾。因此,与每个信息集 I 中的每个动作 a 相关联的反事实遗憾记录如下:

使用遗憾匹配算法来决定每个信息集中的策略:

值得注意的是,在一些研究中,等式(40)、(42)和(44)中省略了归一化因子 T1。

基本的CFR算法有几个缺点。首先,它要求在每个迭代中遍历整个博弈树,这在博弈树较大的情况下计算上变得难以处理。尽管一些研究致力于通过博弈抽象来减小博弈树的大小,但更多的抽象可能导致性能下降。其次,它需要在每个迭代 i 中为每个信息集 I 中的每个动作 a 存储反事实遗憾 Ri(I, a)。在我们的框架(算法1)中,这些值被存储在 h(i) 中。这一要求带来了显著的存储挑战。

2)CFR节省时间的变体:

因此,许多研究主要通过两种主要方法来提高CFR的时间效率。第一种方法涉及修改遗憾计算以提高其速度。

另一种方法涉及采用抽样方法。虽然这种方法需要更多的迭代次数,但每次迭代的持续时间减少,最终减少了达到收敛所需的总时间。

蒙特卡洛CFR(MCCFR)概述了一个将抽样融入CFR的框架。该方法将终端历史划分为块,每次迭代从这些块中进行抽样,而不是遍历整个博弈树。这使得可以计算每个玩家的抽样反事实值,从而产生即时反事实遗憾,这些遗憾在期望上与原始CFR的反事实遗憾相匹配。原始CFR代表了一个特殊情况,即所有历史都被划分为一个块。

MCCFR通常以三种形式出现:

  • 结果抽样MCCFR,其中每个块对应一个历史;
  • 外部抽样MCCFR,其对对手和机会节点进行抽样;
  • 以及机会抽样MCCFR,其仅关注机会节点。
  • 此外,将机会抽样扩展为朴素机会抽样、对手/公共机会抽样、自我/公共机会抽样和公共机会抽样。这些方法在处理公共和私有机会节点的抽样方式上有所不同。一些研究还专注于学习如何减少MCCFR的方差以加速收敛。

除了这两种主要方法外,其他研究还发现热启动和修剪技术也可以加速CFR的收敛。

3)CFR节省空间的变体:

在每个迭代中存储每个信息集的策略和遗憾需要大量的存储空间。在完全信息博弈中,通过分解来减小问题求解的规模;即,我们解决子博弈而不是整个博弈。然而,这种方法在不完全信息博弈中面临挑战。困难在于定义子博弈,因为它们可能与信息集的边界相交,从而使其划分变得复杂。CFR-D是一种具有理论保证的分解不完全信息博弈的开创性方法。博弈被分为主干部分(称为“主干”)和几个子博弈。它假设在不完全信息博弈中,子博弈可以被概念化为不分割任何信息集的树林。在每个迭代中,对主干中的两名玩家应用CFR,并使用求解器来确定子博弈中的反事实最佳响应。该过程包括使用来自子博弈根部的反事实值来更新主干,并更新该根部的平均反事实值。在这些更新之后,子博弈的解决方案被丢弃。CFR-D通过仅保存位于主干和每个子博弈根部(在每个迭代i中表示为I∗)的信息集的值Ri (I∗ , a),来最小化存储需求,从而在存储效率与解决子博弈所需时间之间进行权衡。DeepStack使用的Continue-Resolving技术和Libratus使用的Safe and Nested Subgame Solving技术也体现了类似的思想。我们将在第IV-B1节中讨论这些方法,并探讨它们在德州扑克特定背景下的应用。

4)CFR的估计方式变体:

尽管上述CFR变体推动了该领域的发展,但它们仍然无法直接解决大型不完全信息广延式博弈。这一局限性主要源于对策略表示的依赖。通常,该过程涉及将原始的大型博弈抽象为更简单的形式,对抽象后的博弈应用上述CFR变体,然后将开发的策略转换回原始博弈。然而,这个抽象过程高度依赖于博弈特性,并且严重依赖于领域知识。此外,将博弈抽象到较小规模通常会导致与更全面的抽象相比次优的结果,因此抽象规模的选择对性能至关重要。鉴于这些挑战,人们开始转向估计技术。引入了回归CFR(RCFR),它使用共享的回归器φ(I , a)来估计反事实遗憾。然而,使用回归树作为回归器限制了RCFR在较小博弈中的应用,并且需要手动设计特征仍然是一个缺点。在基于优势的遗憾最小化(ARM)将CFR与单智能体场景中的深度强化学习相结合之后,越来越多的研究开始关注将CFR与神经网络结合应用于多智能体场景。Double Neural CFR利用了两个神经网络:一个用于估计反事实遗憾,另一个用于近似平均策略。类似地,Deep CFR利用了一个优势网络V (I , a|θp )来估计反事实遗憾,每个玩家都有一个独特的超参数θp,并在优势网络的训练过程之后使用π(I,a|θπ)进行策略估计。由于这两个网络是按顺序而不是同时训练的。‍‍

因此每个中间迭代的策略仍然取决于优势网络的输出:h(i) = V (I , a|θp )。尽管存在相似性,但Deep CFR通过其数据收集和在更大规模的扑克博弈中证明的有效性,与Double Neural CFR区分开来。此外,Single Deep CFR(SD-CFR)表明,训练平均策略网络是不必要的,只需要一个优势网络。在SD-CFR的基础上,DREAM利用学习到的基线,在只在每个决策点采样一个动作的无模型设置中保持低方差。此外,优势遗憾匹配行动者-评论家(ARMAC)将回顾性策略改进的思想与CFR相结合。

F. 统一框架的再思考

在介绍了这四类自博弈算法之后,我们将在本节中进一步比较它们,并阐述我们的框架与其他框架之间的差异,以展示为什么我们提出的框架更加通用。我们还在表II中总结了关键点。

传统的自博弈算法和PSRO系列(Policy Space Response Oracle)存在许多相似之处。它们最初都只需要一个随机初始化的策略,并随着训练的进行,策略集逐渐扩大。因此,在我们的框架中,我们使用占位符初始化来初始化策略集,并为这两类算法设置E=1。交互矩阵通常是下三角矩阵(推论1和推论2)。PSRO系列与传统自博弈算法的主要区别在于,PSRO系列采用了更复杂的MSS(Meta-Strategy Solver,元策略求解器),旨在处理更复杂的任务。例如,α-PSRO特别使用了一种基于α排名的MSS来处理多玩家总和博弈。

与前面提到的两类算法不同,基于持续训练的系列采用了一种不同的范式,即同时训练整个策略集。这种方法旨在在每个迭代中同时加强所有策略,而不是扩大策略集并依赖更新的策略变得更强。因此,策略集使用实际初始化,并利用πi(·|h(i))来初始化πih,以确保策略更新是自引用的。因此,交互矩阵通常不是下三角矩阵(推论3)。最后,基于遗憾最小化的系列算法更关注整体性能随时间的变化,而不是单个回合。例如,它非常适合像德州扑克这样的博弈,这些博弈需要涉及欺骗、隐藏和虚张声势的策略。这一系列训练过程的主要目标是更新与不同策略相关的遗憾值。在我们的框架中,我们使用h(i)来存储这些信息。由于策略由h(i)决定,因此只有最新的策略是相关的。因此,交互矩阵是单位下移矩阵(推论4)。我们实际上也不需要初始化整个策略集,而只需在训练过程中使用πi−1(·|h(i − 1))来初始化πih。

我们的框架是建立在PSRO和NeuPL的基础上的。在这里,我们概述了我们的框架与这两个现有框架之间的差异。我们的框架与PSRO的主要区别在于使用了一个交互矩阵Σ 来表示对手采样策略,从而能够整合更复杂的竞争动态。此外,在我们的框架中,σi表示对手采样策略,它指定了如何针对策略i采样对手的策略,而不是策略i的元策略。此外,我们的框架还引入了策略条件函数h(i),这使得我们的框架比NeuPL更通用,其中NeuPL中的策略以σi为条件。这一增强使我们的框架具有更高的表达能力。此外,我们还描述了如何以三种不同的方式计算oracle(算法1中的第4行)(算法2、算法3和算法4),以提供更清晰的理解。据我们所知,我们的框架是第一个将基于遗憾最小化的系列算法集成的自博弈框架,这是一个重要的自博弈范式。

IV. 应用分析

在本节中,我们通过将场景分为三组来介绍自博弈的标志性应用:棋盘博弈(通常涉及完全信息)、纸牌博弈和麻将(通常涉及不完全信息)以及电子博弈(以实时动作为主,而非回合制)。然后,我们展示了自博弈在这些复杂场景中的具体应用,并在表III中提供了这些应用的比较分析。

A. 棋盘博弈

棋盘博弈领域,其中大多数是完全信息博弈,这些博弈中的策略生成方法曾因两项关键技术的引入而发生革命性变化:位置评估(position evaluation)和蒙特卡洛树搜索(MCTS)。这些方法经过轻微修改后,在解决如国际象棋、跳棋、五子棋、双陆棋和拼字博弈等棋盘博弈中展现出了超人的效果。然而,将这些技术应用于拥有约2.1 × 10¹⁷⁰种棋盘配置的围棋时,其表现仅能达到业余水平。鉴于此,我们的讨论将特别聚焦于围棋,以说明自博弈的应用。此外,我们还将讨论范围扩大到包括战棋(stratego)在内的不完全信息棋盘博弈,这与大多数基于完全信息的棋盘博弈大有不同。

围棋:

围棋的解决方法因DeepMind的AlphaGo系列的推出而发生了革命性变化,该系列利用自博弈的方式显著提升了性能,在围棋领域树立了新的标杆。在AlphaGo中,训练过程可以分为三个阶段。第一阶段,使用专家数据进行监督学习,训练出一个快速策略网络用于MCTS扩展中的模拟,以及一个精确的策略网络。第二阶段,利用强化学习来优化策略网络,并随后训练一个价值网络。自博弈在这一阶段至关重要。具体来说,策略网络通过与随机选择的历史版本竞争来优化。之后,使用训练好的策略网络自我博弈产生的样本来训练价值网络。在最终阶段,MCTS结合策略和价值网络来指导动作选择。与AlphaGo不同,AlphaGo Zero除了博弈规则外不需要任何专家数据,而是通过自博弈来学习。它仅使用一个网络f来同时预测动作概率和状态价值。每个动作都是通过MCTS生成的,而不是像AlphaGo那样使用模拟的方式。自博弈用于生成数据,并通过当前最佳策略与自身竞争来优化自身网络f,这一过程类似于上文中的引入MSS。此外,为了将新策略纳入策略池,它必须以前55%的胜率击败其历史版本,这与算法2中第1行的要求一致。AlphaZero将AlphaGo Zero扩展到包括围棋以外的博弈,如国际象棋和日本将棋,并做了一些修改。值得注意的是,引入了平局作为额外的预期结果,并且由于国际象棋和日本将棋的不对称性,省略了数据增强过程。在AlphaZero的基础上,MuZero将从头开始学习的概念提升到了新的高度,甚至可以在没有预定义博弈规则的情况下运行。MuZero结合了基于模型的RL思想来模拟博弈的动态。更具体地说,除了预测网络f(类似于AlphaGo Zero和AlphaZero中的网络)之外,MuZero还引入了一个动态网络g来模拟MDP,以及一个表征网络h来将观测映射到隐藏状态。这三个网络是联合训练的。与AlphaGo Zero和AlphaZero类似,MuZero使用由这三个网络指导的MCTS来做出决策。MuZero中的自博弈过程与AlphaZero类似。在实践中,MuZero不仅在围棋等棋盘博弈中表现出色,还在Atari博弈中达到了最先进的性能。此外,一些研究还扩展了MuZero的能力。例如,Stochastic MuZero学习了一个随机模型而不是确定性模型,以增强其在更复杂场景中的性能。Sampled MuZero拓展到了更复杂动作空间的博弈

战棋:

与大多数完全信息博弈的棋盘博弈不同,战棋Stratego 是一款两人不完全信息棋盘博弈,它以其包含记忆、推理和虚张声势等元素而独具特色。这种复杂性因博弈的长回合和大量潜在的博弈状态而进一步加剧,据估计有 10^535 种状态。博弈分为两个阶段:部署阶段和博弈阶段。在部署阶段,玩家秘密地排列他们的部队,为战略深度奠定基础;在博弈阶段,目标是通过推导出对手的阵型并夺取他们的旗帜。博弈的深度和计算复杂性一直以来都是重大的挑战,直到DeepNash等突破性技术才显示出有人工智能在解决该问题上的有希望的进展。

DeepNash将R-NaD扩展为基于神经网络的R-NaD。它采用了一个具有四个头的神经网络:一个用于价值预测,一个用于部署阶段,一个用于选择棋子,一个用于棋子位移。在动态阶段,其利用神经复制动态有效地获得近似不动点策略。此外,Deep-Nash还结合了训练时的微调和测试时的后处理方法,以消除不可靠的行为,从而提高其输出的鲁棒性和准确性。DeepNash在所有Gravon Stratego玩家中排名第三,几乎在所有与现有的Stratego机器人的比赛中都取得了胜利。

B. 纸牌博弈和麻将

德州扑克:

德州扑克是一种广受欢迎的扑克博弈,参与玩家人数可在2到10人之间,因其战略深度和虚张声势的玩法而备受推崇。在两人对战时,这种形式被称为单挑德州扑克。随着玩家数量的增加,博弈的复杂度也会相应上升。博弈开始时,每位玩家会获得两张私人底牌,接着进行第一轮下注。随后,三张社区牌(即翻牌)被公开,进入新一轮下注。接着会分别揭开第四张(转牌)和第五张(河牌)社区牌,每张牌的揭示都会引发新的下注回合。玩家的目标是从私人底牌和社区牌中组合出最佳的五张牌。在摊牌环节中,剩余的玩家展示自己的牌,胜者赢取底池。德州扑克有三种主要的下注形式:无限注、固定限注和底池限注,每种形式都为玩家提供了不同的风险和战略复杂性。其中,无限注德州扑克最为引人注目,因为它允许玩家在每一轮下注时投入任意数量的筹码,直至全押。由于无限注的高自由度和策略深度,这种形式常在锦标赛和媒体中出现,已成为现代扑克文化的象征。除了德州扑克外,其他简化版如库恩扑克和勒杜克扑克也在博弈理论和教育中发挥了重要作用。然而,我们的关注点主要是现实世界中的德州扑克算法开发。面对德州扑克的复杂性,抽象化是简化博弈决策的关键方法。通过将庞大的博弈状态空间简化为更易管理的规模,算法能够更高效地计算策略。德州扑克中的抽象主要有两种:行动抽象,通过简化玩家的可能行动;信息抽象,通过分组类似的手牌强度或底池大小,简化决策过程。虽然德州扑克中较简单的形式,如单挑限注德州扑克(HULHE),仍然拥有约3.16×10¹⁷种博弈状态,但直到Cepheus的出现才得以解决。Cepheus通过使用压缩的定点算法和改进的CFR方法,有效解决了存储和计算问题,实现了超越人类的表现。随后,NSFP引入了端到端的强化学习,自博弈训练在HULHE中取得了优异成绩。类似地,Poker-CNN利用卷积网络和HULHE的3D表示,通过自博弈学习实现了与之竞争的表现。Deep CFR进一步结合了深度神经网络与CFR算法,超越了之前的方法。然而,即使取得了这些进步,基于神经网络的方法仍未超越Cepheus所采用的基于遗憾的方法。在解决HULHE问题后,研究重心转向了更为复杂的单挑无限注德州扑克(HUNL),其状态空间大约有10¹⁶⁴种可能性,远超HULHE的复杂度。因此,像Cepheus那样遍历整个博弈树的方式在HUNL中已经行不通,给德州扑克的AI研究提出了新的挑战。DeepStack采用的核心技术是持续再求解,这种方法在程序需要采取行动时,动态地实时计算策略,重点放在有限深度和宽度的子博弈上。为了估算子树最远端的结果,DeepStack利用了神经网络,这些网络结合了玩家的策略范围和对手的反事实值,这些值在博弈过程中始终受到监控。DeepStack使用了三种主要的神经网络:回合网络、翻牌网络和辅助网络,这些网络通过1000万场随机生成的扑克博弈进行预训练,目标反事实值则是通过数千次CFR加迭代得出的。通过这些创新,DeepStack证明了自己具备与专业扑克玩家竞争的能力。另一款重要的扑克AI,Libratus,通过自博弈开发了其博弈抽象和蓝图策略,采用了MCCFR的增强版本。Libratus的蓝图策略主要用于前两轮详细的抽象决策,并在后续回合中支持嵌套安全子博弈求解,类似于DeepStack的持续再求解,为实时决策提供了更精确的策略。此外,Libratus配备了自我改进功能,通过弥补策略中可能的不足,进一步优化其蓝图策略。凭借这些优势,Libratus成功击败了专业的单挑无限注德州扑克(HUNL)玩家。ReBel进一步发展了扑克中的策略,将博弈状态概念扩展为公共信念状态(PBS),将不完全信息博弈转化为具有连续状态空间的完全信息博弈。ReBel借鉴了AlphaZero的强化学习与搜索结合的理念,通过自博弈训练价值网络和策略网络,有效应对不完全信息的挑战。为减轻计算和存储的压力,AlphaHoldem采用了一种端到端的自博弈强化学习方法,并结合了多项技术,超越了DeepStack的再实现版本。在训练中,AlphaHoldem引入了K最佳自博弈,基于ELO评分选择表现最佳的智能体进行经验回放,从而持续改进策略。

当德州扑克的玩家数量超过两人时,博弈复杂性显著增加。Pluribus应对了这种复杂性,成功解决了六人无限注德州扑克的挑战。Pluribus在其蓝图策略中使用了动作抽象和信息抽象,以简化原始博弈的动态。与Libratus类似,Pluribus在自我博弈中采用了MCCFR方法制定其策略,但Pluribus的关键区别在于它使用了一种简化的策略池,其中只包含四种策略组合,这些策略用于模拟对手的不同可能性,从而更高效地管理多玩家环境的复杂性。虽然Pluribus的策略并没有根据对手的实际倾向进行适应,也没有在多人博弈中达到纳什均衡的理论证明,但其依然在六人无限注德州扑克中战胜了顶级职业玩家,展示了强大的竞争实力。

斗地主:

斗地主是一款广受欢迎的三人战略纸牌博弈,玩家分别扮演“地主”和“农民”角色,展开激烈的对抗。博弈的目标是,地主要击败农民,而农民则通过合作来战胜地主。斗地主的魅力在于策略性、农民间的协作,以及玩家之间的紧张对抗。博弈分为两个主要阶段:叫牌阶段和打牌阶段。在叫牌阶段,玩家根据手中牌的强弱争夺地主的角色,这个阶段决定了博弈的对抗形势。打牌阶段是策略的核心,玩家轮流出牌,目的是第一个出完手中的牌。博弈的复杂性源于它的不完美信息:玩家只能看到自己的牌和打出的牌,这种不可预测性增加了博弈的战略深度。据估计,斗地主的可能博弈状态高达10^76 ~ 10^106种,动作空间更是高达2^7472种,展示了其丰富的策略可能性。为了在人工智能领域研究斗地主,多个算法相继出现。DeltaDou是首个在斗地主中达到专家级表现的算法。它基于AlphaZero框架,尽管只考虑了打牌阶段,仍然通过改进的蒙特卡洛树搜索(MCTS)实现了出色的探索能力。DeltaDou采用策略价值网络,通过特定的输入输出编码加速训练,并利用贝叶斯方法推断其他玩家的牌。另一项进展是DouZero,它放弃了复杂的树搜索,选择了更高效的采样方法,降低了训练成本。DouZero结合蒙特卡洛方法与深度神经网络,通过独立的强化学习自我博弈生成数据,并利用这些数据不断优化算法。DouZero的表现超越了DeltaDou,证明了其创新方法的有效性。此外,DouZero通过监督学习训练了在叫牌阶段使用的叫牌网络,从专家数据中学习策略。基于DouZero的DouZero+进一步引入了对手建模,使得算法能够更好地预测对手行为,提高决策的智能性。它还加入了教练指导学习,平衡了三名玩家初始手牌的强度,显著加速了训练过程。

PerfectDou则采取了一种不同的策略,利用“完美训练-不完美执行”框架(PTIE),将完美信息融入训练过程,而在执行时仅依赖不完美的信息。通过近端策略优化(PPO)与广义优势估计(GAE),PerfectDou在性能上超越了DouZero,并省去了叫牌阶段的专家数据需求,进一步简化了模型复杂性。

麻将:

麻将因其技巧、策略与运气的复杂交织而广受欢迎,并衍生出多种全球性变体,其中最具代表性的是日本的立直麻将。这款博弈通常由四名玩家进行,玩家在处理公开的博弈元素(如丢弃的牌)的同时,也要考虑隐藏的部分(如自己的手牌和未见的公共牌)。麻将的战略深度和复杂性为人工智能带来了巨大的挑战。尽管目前的研究取得了一些进展,但许多人工智能系统仍难以达到人类专家的水平。AI必须在不完全信息的环境下做出决策,并根据多个对手的动态行动调整策略,这让决策过程变得异常复杂。此外,麻将多样的获胜规则和估计约10^169种的庞大可能博弈状态,也进一步增加了难度。因此,麻将成为人工智能领域中一个极具挑战性的课题,需要复杂且创新的方法来应对其独特的需求。在众多人工智能算法中,Suphx被认为是第一个在麻将中表现出色的算法之一。它在著名的在线麻将平台“天凤”上达到了10段的水平,表现媲美人类专家玩家。Suphx的训练过程从监督学习开始,通过专家数据来初步训练模型。随后,它通过自博弈强化学习进一步提升能力,并引入了几项创新技术来增强效果。这些技术包括全局奖励预测,它在整个博弈过程中提供持续的奖励反馈;神谕指导,则在自博弈的早期阶段引入完美信息,指导策略的开发。此外,Suphx还使用了参数化蒙特卡洛策略适应,以进一步细化其策略。

与Suphx类似,由Dwango Media Village开发的NAGA和腾讯设计的LuckyJ也在天凤上达到了10段的水平。特别是LuckyJ,更是在对战中击败了人类职业玩家。这些人工智能的成功展示了AI在复杂博弈领域的潜力,也为未来的研究提供了宝贵的经验和方向。

C. 视频游戏

与传统棋盘博弈和纸牌博弈相比,视频游戏通常具有实时动作、长时间跨度以及由于更广泛的可行动作和观察范围而带来的更高水平的复杂性。在这里,我们介绍一些具有代表性的视频游戏,以展示自博弈如何推动这些博弈中的人工智能发展。

《星际争霸II》:

《星际争霸》是由暴雪娱乐开发和发行的一款即时战略(RTS)游戏。游戏中有三个种族:人族、虫族和神族,每个种族拥有独特的单位和策略选择,极大地丰富了博弈体验。它以平衡的玩法、战略深度和富有挑战性的多人游戏著称,要求玩家收集资源、建造基地和组建军队。胜利需要精密的计划和战术执行,而当玩家失去所有建筑时即告失败。AlphaStar是人工智能领域的一项重大突破,它在《星际争霸II》的1v1模式中击败了职业玩家。AlphaStar的训练框架与AlphaGo类似,初始阶段通过监督学习从人类专家的数据中学习策略,然后使用端到端强化学习和分层自博弈方法进一步训练。具体来说,AlphaStar将所有智能体分为三类:主要智能体、联盟利用者和主要利用者,并维护一个包含所有类型智能体的历史策略池。

主要智能体参与完全自博弈和部分自博弈,与自身和策略池中的其他智能体对战,并定期添加到策略池中。联盟利用者通过部分自博弈与策略池中的智能体对战,显示出高胜率时被加入池中,并可能被重置以暴露全局盲点。主要利用者专门与主要智能体对战,以提高鲁棒性,并在达到高胜率或完成一定训练步骤后加入策略池,每次添加时会被重置。三种智能体中,主要智能体是核心,代表了最终的AlphaStar策略。然而,AlphaStar的训练计算量巨大,后续研究通过引入创新技术减少计算量,从而优化了联盟自博弈的训练过程。

MOBA游戏:

多人在线战术竞技博弈(MOBA)是一种流行的视频游戏类型,将即时战略(RTS)与角色扮演元素相结合。在典型的MOBA游戏中,两队玩家各自控制一个独特的角色(称为英雄),目标是摧毁对方队伍的主要结构(通常称为基地)。每个英雄拥有独特的技能,并在团队中扮演特定的角色,如战士、坦克或辅助。博弈的关键在于管理多条兵线和在战争迷雾的覆盖下进行对战,这种迷雾会遮蔽地图的一部分。MOBA游戏的代表作包括《英雄联盟》、《DOTA2》和《王者荣耀》,它们以复杂的战略深度、在不完全信息下的决策制定、对团队合作和个人技巧的高要求而著称。OpenAI Five 是在简化版《DOTA2》中击败世界冠军团队的人工智能。该版本的《DOTA2》拥有有限的英雄选择,并禁用了部分物品。OpenAI Five 采用分布式强化学习,结合了PPO和GAE来扩展训练规模。团队中的每个“玩家”共享相同的策略网络和观察输入,唯一不同的是每个玩家有一个独特的身份输入。训练过程中采用自博弈,有80%的对局为标准自博弈,20%则使用类似于AlphaStar中PFSP的自博弈技术。策略池中的策略会根据其质量评分决定选择概率,这些评分通过训练中的竞争结果不断更新。每10次迭代,都会向策略池中添加一个新智能体。与AlphaStar类似,OpenAI Five 也需要大量的计算资源,因此团队开发了“手术工具”来在环境和代码不断变化的情况下,以最小性能损失恢复训练。此外,OpenAI Five 使用TrueSkill评估智能体的表现。

另一款在中国极为流行的MOBA游戏是《王者荣耀》,腾讯团队所提出的方法在1v1模式在对阵顶级职业玩家时也取得了显著成就。其方法成功的背后是针对大规模强化学习量身定制的系统和复杂算法设计,有效应对了游戏的控制挑战。这一强化学习的关键在于使用δ-均匀自博弈技术。后来,这项研究扩展到了5v5模式,与OpenAI Five相比,它扩大了英雄池至40个,显著增加了可能的阵容组合,但也带来了强化学习中的“学习崩溃”问题。为此,研究团队提出了课程自博弈学习(CSPL)方法,通过三个阶段的课程学习缓解了这一问题。第一阶段通过固定阵容的自博弈,并结合人类数据来保持对战平衡;第二阶段使用多教师策略提炼生成提炼模型;第三阶段则以此模型为起点,随机选择阵容进行自博弈。这一方法使AI在对战中击败了职业玩家团队。此外,结合自博弈生成的数据,还利用MCTS和神经网络来优化阵容选择策略。

Google Research Football:

Google Research Football(GRF)是一个强调高级动作的开源足球模拟器,旨在研究人工智能在复杂环境中的表现。GRF最初提供两个主要场景:足球基准测试和足球学院,其中包含11个特定任务。本研究重点关注足球基准测试,因为它呈现了更复杂的场景,更适合展示自博弈的效果,而不是在设计好的任务中测试。GRF的挑战性在于它需要队友之间的协作和与对手的竞争,此外,长轨迹(每轮3000步)、随机转换和稀疏奖励等特性也增加了博弈的复杂性。WeKick在Kaggle举办的GRF竞赛中获得冠军。该竞赛允许参赛者控制球员(进攻时为持球者,防守时为最近的防守者),改变了博弈动态。WeKick采用类似于联赛训练中的自博弈策略,通过强化学习的奖励塑造和生成对抗性模仿学习初始化对手策略池,从其他球队的战术中学习,显著提升了其表现。

进一步的研究探索了完整的团队足球比赛,而不仅仅是控制个别球员。Team-PSRO将PSRO方法扩展到团队博弈中,展示了近似的TMECor,并在完整的GRF 4v4版本中优于自博弈。在更复杂的11v11版本中,守门员由规则控制,而TiKick使用模仿学习,从WeKick自博弈产生的数据中汲取经验,通过分布式离线强化学习构建了多智能体AI。此外,Fictitious Cross-Play(FXP)引入了两类种群:主种群和对抗种群。对抗种群的策略通过与主种群的策略交叉对战来提升,而主种群策略与两种群策略都进行对战。在11v11版本中,FXP对TiKick的胜率超过94%。TiZero是TiKick的后续研究,结合课程学习与FSP和PFSP技术,避免对专家数据的依赖,成功实现了更高的TrueSkill评分,相比TiKick展现出更强的表现能力。

V. 开放问题与未来工作

自博弈方法因其独特的迭代学习过程和适应复杂环境的能力而展现出卓越的性能。然而,这一领域仍存在需要深入探索的几个关键问题。

A. 理论基础

尽管在有限玩家和有限动作的博弈中已经证明了NE的存在,但在更大规模的博弈中计算NE仍然具有挑战性,因此许多研究旨在实现近似NE。然而,在某些复杂情况下,即使是计算近似NE也极具难度,研究者们因此转向更高层次的均衡概念,如相关均衡和α-rank。

管许多自博弈算法基于博弈论的理论基础进行开发,但在应用于复杂现实场景时,理论与实际效果之间仍存在显著差距。例如,尽管AlphaGo、AlphaStar和OpenAI Five等项目在实践中取得了巨大成功,但这些系统背后缺乏严格的博弈论证明来支撑其有效性。因此,未来的研究应致力于缩小这一差距,结合实证成果与理论验证。这可能包括开发新算法,使其在复杂环境中既符合理论预期又具备实际效用,或在复杂场景中为已成功的算法提供理论证明,以巩固其在实践中的可靠性。

B. 环境的非平稳性

在自博弈框架中,对手玩家的策略会随着训练的进行不断演变,而对手是环境中的关键因素。这种演变可能导致相同的策略在不同时间点产生不同的结果,从而创造出一个非平稳的环境。这一问题在多智能体强化学习领域中也同样存在。未来的研究应致力于开发更加鲁棒且能够适应不断变化条件的算法。例如,将对手建模纳入自博弈中,可以帮助智能体预测对手策略的变化并主动调整自身策略,使其更好地应对环境的变化。

C. 可扩展性和训练效率

在自博弈方法中,随着团队及其内部玩家数量的增加,可扩展性面临着重大挑战。玩家数量的增加使得交互复杂性急剧上升。例如,在OpenAI Five项目中,可选择的英雄数量限于17个。尽管在MOBA AI项目中通过课程学习将可选英雄扩展到40个,但这仍不足以涵盖实际博弈中的整个英雄池。一个潜在的解决方案是利用玩家之间的关系来优化学习过程,例如通过使用基于图的模型来表征和利用这些关系,有助于管理大规模多智能体环境的复杂性。

这些可扩展性问题根本上源于自博弈方法的训练效率局限,涉及计算和存储两个方面。由于自博弈的迭代性质,计算效率成为限制因素,智能体需要不断地与自己或过去的版本对战,消耗大量计算资源。尽管构建更复杂的种群和竞争机制可以提高训练的强度和质量,但这也增加了对计算资源的需求。应对这些挑战的方法包括探索并行计算、分布式学习和更高效的神经网络架构。此外,自博弈是存储密集型的活动,需要维护一个庞大的策略池,即使使用共享网络架构,也可能面临存储大型模型参数的问题。这一点在基于遗憾最小化的自博弈算法中尤为明显,因为这种算法需要为每个信息集和潜在动作存储遗憾值。因此,有效管理计算负载和存储需求对于提高自博弈方法的整体训练效率和可扩展性至关重要。

D. 大型语言模型

大型语言模型(LLMs)因其卓越的表现和逐渐显现的泛化能力,被视为实现人类级别智能的潜在基础。为了微调LLMs、增强其推理性能,并构建具有强大决策能力的基于LLMs的代理,自博弈方法应运而生。后训练微调是将LLMs对齐到更期望行为的关键步骤,但这通常需要大量的人工标注数据。为减少对人工标注数据的依赖,自博弈微调(SPIN)引入了一种自博弈机制,利用LLMs自身生成训练数据,并通过区分自生成响应与人工标注数据来微调模型。其他研究也尝试使用模型生成的数据来微调LLMs,尽量减少对人类标注的需求。

利用自博弈自我提升的理念也被应用于提升LLMs的推理能力。例如,SPAG研究发现,通过在Adversarial Taboo等双人对抗性语言博弈中进行自博弈,可以显著提高LLMs在多种推理基准测试上的表现。除了提升推理能力,自博弈方法还支持构建具备强大战略能力的基于LLMs的智能代理。Cicero是一个代表性案例,通过将语言模型与自博弈训练的强化学习策略相结合,使其在Diplomacy博弈中达到人类级别的水平。Cicero利用自博弈策略生成预期动作,并提示语言模型根据策略意图生成对应的语言。另一项工作则结合LLMs与自博弈策略,采用不同的方法:先提示LLMs生成多个动作候选,然后使用自博弈策略在这些候选动作中选择最优策略。尽管自博弈在LLMs中的应用取得了初步进展,但这一领域仍然未被充分探索,未来仍需进一步研究和创新。

E. 实际应用

自博弈是一种强大的技术,在多个领域中得到了广泛应用,尤其擅长通过迭代学习方法解决从现实问题中抽象出来的挑战。例如,在经济学中,自博弈被用于增强多议题谈判任务中的监督学习模型。在组合优化问题领域,如旅行商问题(TSP)和带容量的车辆路径问题(CVRP),自博弈也展现了卓越的性能。在交通领域,自博弈促进了类似人类的自动驾驶行为的开发,使得车辆能够学习在道路上合并或退出的谈判策略,尽管这些研究大多仍在二维模拟器中进行。

然而,自博弈在实际应用中面临的一个主要挑战是其不切实际性。由于自博弈需要大量的试错过程,这不仅计算成本高昂,还涉及在受控模拟环境外不切实际或不安全的操作。因此,自博弈的应用大多局限于模拟器中。为了有效部署自博弈,必须克服Sim2Real(模拟到现实)差距。例如,在Sim2Real差距不明显的任务中,自博弈可以用于增强视频流传输能力和解决图像重定向问题。EvoPlay则通过自博弈设计蛋白质序列,利用AlphaFold2等先进的模拟器来缩小Sim2Real差距。同样,在异构多机器人系统中,自博弈被用于对抗性捕捉任务,并通过大量的Sim2Real转换努力,逐步实现现实世界中的成功应用。

VI. 结论

本综述系统地探讨了强化学习中自博弈这一快速发展的领域。自博弈的核心思想是让智能体与自身的副本或过去的版本进行交互,这已被证明是一种跨多个领域开发稳健策略的强大方法。本文在深入分析自博弈之前,首先介绍了多智能体强化学习框架,并阐述了自博弈的背景。随后,提出了一个统一的框架,并将现有的自博弈算法分为四大类:传统自博弈算法、PSRO系列、基于持续训练的系列和基于遗憾最小化的系列。本文详细说明了这四类算法如何无缝集成到所提出的框架中,以确保对其功能的全面理解。通过对自博弈在复杂场景(如棋类博弈、纸牌博弈和视频博弈)中的应用进行深入分析,本文强调了理论与应用之间的转变。尽管自博弈在众多领域取得了显著成功,但仍然面临挑战,例如收敛至次优策略和高昂的计算需求。未来的研究可能会聚焦于解决这些问题、将自博弈与大型语言模型相结合以及推动其在实际应用中的实现。

总之,自博弈是现代强化学习研究的基石,为开发高级人工智能系统提供了重要的见解和工具。本综述为研究人员和从业者提供了宝贵的指导,助力这一动态且不断演进的领域取得进一步的进展。

CAMPING

点个在看你最好看


相关推荐

  • AI教父投了AI教母!李飞飞新创企结束隐身,首次披露创始团队与投资人
  • 北清华、南交大,孵出10家人形机器人顶流创企
  • 一张图实现街道级定位,端到端图像地理定位大模型AdressCLIP登ECCV2024
  • AI一键生成“类黑神话”!腾讯推出游戏视频模型GameGen-O,业内人士:游戏工作室的ChatGPT时刻
  • 中国最大开源MoE模型,255B参数无条件免费商用,元象发布
  • o1完整思维链成OpenAI头号禁忌!问多了等着封号吧
  • 招人!新智元邀你勇闯ASI之巅
  • 南加大提出全新「通用时间序列」基础模型TimeDiT!基于扩散模型创新物理约束机制
  • 戴手表就能检测打鼾?Apple Watch到底用什么诊断「睡眠呼吸暂停」
  • 李飞飞携24人最强天团打造「大世界模型」!Hinton站台力挺,获2.3亿融资
  • OpenAI o1惊现自我意识?陶哲轩实测大受震撼,门萨智商100夺模型榜首
  • 电力、芯片制造、数据和延迟成四大限制因素,Scaling Law能续到2030年吗?
  • 首次!用合成人脸数据集训练的识别模型,性能高于真实数据集
  • o1 改变了 Scaling 范式?Self-Play 还值得 All In 吗?
  • 张俊林:OpenAI o1的价值意义及强化学习的Scaling Law
  • 李飞飞任CEO,空间智能公司World Labs亮相,全明星阵容曝光
  • 京东又又又加薪了,同时扩招1.8万个岗位!
  • 腾讯回应滨海大楼不雅视频事件
  • “你的开源项目真不错,但跟我的闭源软件功能类似,所以希望你能闭源,好方便我割韭菜”
  • 上班摸鱼刷题,不会再被抓了~