西工大等提出大模型多智能体框架CRSEC,揭开AI社会的社交奥秘


©作者 | 任思玥单位 | 西北工业大学



在日常生活中,早晨起床后的洗漱穿衣、驾车通勤时的靠右行驶、工位上的耳机随手一戴…… 这些看似普通的举动其实都是一系列行为标准(即社会规范,social norm)在悄悄指导着我们。它们就像生活中的“隐形导航”,让我们不假思索地知道在什么时间、在什么场合该做什么事情。


但是,试想一下,如果没有这些规范,我们可能会在社交活动中因为不知所措而倍感困惑,最终引发各种各样的社会冲突。过去几十年来,有关社会规范的研究在复杂系统科学、认知科学以及计算机科学等领域引起了广泛的关注。研究者们一直在追寻一个核心问题:社会规范是如何在人类或智能体的社会互动中自发形成的呢?


随着人工智能的蓬勃发展,当我们将它们与现实社会场景融合时,智能体的社交行为需要具备一定的规范性,即智能体要能够理解在什么时间、在什么场合该做什么事情,并且能够根据这些理解来行动。


想象一下,在未来社会中,智能体需要完成人类布置的各种任务,它们之间可能会频繁地交互,甚至与人类互动。要让人类能够真正接受并且习惯使用智能体完成各种任务,智能体理解和遵守社会规范的能力显得至关重要。


一方面,这可以减少智能体间以及智能体与人类间的冲突,促进他们的高效协作,另一方面还可以让人类更准确地预测智能体的行为,从而提升人类对智能体的信任与接纳程度。


那么,如何才能让智能体具备遵守社会规范的能力,并让 AI 社会中自发涌现出社会规范呢?近日,欧洲科学院院士、国家杰青、IEEE Fellow 西北工业大学王震教授团队联合上海人工智能实验室提出了首个基于大语言模型的多智能体规范性框架 CRSEC,它的研究重点是探索基于大语言模型的多智能体系统中社会规范的涌现。

论文标题:Emergence of Social Norms in Large Language Model-based Agent Societies

论文链接:

https://arxiv.org/pdf/2403.08251.pdf

项目主页:

https://github.com/sxswz213/CRSEC

研究背景及意义

随着大型语言模型(Large Language Model,LLM)的广泛应用,生成式多智能体系统已展现出可信的社会行为(例如,邀请智能体参加派对活动),彰显了超越传统方法的合作潜力,甚至能够通过协作解决复杂任务(例如,自动生成代码)。然而,现有研究忽视了社会规范的重要性,未解决社会规范的涌现问题:他们通常聚焦于完全合作的任务场景,忽略了社会冲突的存在。


社会规范的涌现研究近几十年备受关注。但在解决生成式智能体系统中的社会规范涌现问题上,过往研究未能提供直接有效的解决方案。这主要因为它们未充分发挥 LLM 的优势,且往往只关注涌现过程的部分方面,而缺乏全面系统的研究。


具体而言,有的研究会专注于规范的表征问题(norm representation),而有的则会关注规范的遵守问题(norm compliance and enforcement)。尽管过往研究存在这些缺陷,但为我们提供了许多启示。


我们首次将生成式智能体与社会规范涌现这两个领域联系在一起,使生成式多智能体系统基于我们的架构涌现出社会规范。具体而言,我们首次提出了一种规范性架构:生成式智能体可以创建、表示、传播、评估、整合以及最终遵守规范。社会规范得以涌现,并有效解决了生成式智能体间的社会冲突。



框架内容

生成式智能体(generative agent)是由 LLM 驱动的智能体,能够分析和预测输入文本(prompt),然后生成输出文本,模拟人类的语言交流和智能行为。


社会规范是在社会群体内共享的行为标准。如果一个行为标准能被社会大多数个体接纳,该行为标准就演变成社会规范。


我们期望通过 CRSEC 架构实现社会规范的涌现现象:少数规范倡导者(智能体)具有其偏好的个人行为标准,通过积极传播这些行为标准能影响其余普通智能体;普通智能体能在社交行为中识别、评估并接纳相应的行为标准,从而在自身行动中遵守该行为标准,最终实现社会规范的涌现和社会冲突的消失。


下图展示了我们的 CRSEC 架构。本文提出的 CRSEC 架构包括四个关键模块:Creation & Representation(创造与表征)、Spreading(传播)、Evaluation(评估)和 Compliance(遵守)。这四个模块回答了社会规范研究中的五个经典问题:


  • 社会规范从何而来?

  • 我们应该如何形式化表达社会规范?

  • 社会规范是如何通过个体间的交互进行传播的?

  • 我们应该如何评估社会规范?

  • 我们如何使得智能体在计划和行动中遵守规范?

▲ CRSEC架构示意图


具体而言,在 Creation & Representation 模块中,LLM 为每个规范倡导者生成具有其偏好的个人行为标准。在 Spreading 模块中,我们从沟通(communication)和观察(observation)这两个机制出发:智能体通过观察他人的行为,利用 LLM 检测其是否与自己的个人行为标准存在冲突。


如果存在冲突,智能体会根据 LLM 的输出选择是否通过沟通解决问题。与此同时,其他智能体通过沟通和观察,利用 LLM 的推理归纳能力识别其中的含有潜在规范的信息,从而实现规范的传播。


由于 LLM 自身的缺陷,智能体需要评估 LLM 生成的含有潜在规范的信息。在 Evaluation 模块中,我们设计了即时评估(immediate evaluation)进行检验,只有通过评估才能成为个人行为标准。


除此之外,随着时间推移,每个智能体的个人行为标准会逐渐增多,但过多的标准可能会限制智能体的行动。因此,我们还引入了长期整合(long-term synthesis),使数据库尽可能精简。


最后,Compliance模块旨在提升智能体对规范的遵循意识。我们从计划(plan)和行动(action)两个方面对该模块进行设计:通过输入的文本提示 LLM 在生成智能体的计划和行动时需要考虑其个人行为标准,以便生成既符合其目标又遵守规范的计划和行动。同时,智能体对规范的遵守行为会在交互中影响其他智能体,从而加强规范的传播。



实验设置

本实验基于 Smallville 沙盒游戏引擎,其中主要围绕“咖啡馆”这一场景展开实验。生成式智能体社会中一共设定了 10 个智能体,其中 3 个规范倡导者,7 个普通智能体。实验中我们所使用的大语言模型为 GPT-3.5 和 GPT-4。



实验结果及现象

下图以一位名叫 Carlos Gomez 的老烟民为例,展示了他如何通过与社会中的其他智能体交互,从最初的识别、接纳,到最终遵守“室内禁止抽烟”这一规范的全过程。其他智能体在本架构中识别、接纳并遵守规范的过程与之类似,最终社会规范得以涌现。

下图展示了具体的实验结果。我们从多个角度可视化了规范演变的过程,并发现了一些有趣的现象。


  • 基于 CRSEC 架构, “室内禁止吸烟”,“公共场所保持安静”和“饭后给小费”的社会规范总会在生成式智能体社会中涌现

  • 除此之外,社会中可以涌现出规范倡导者从未推崇过的全新社会规范,如“维护一个健康的社会环境”

  • 随着社会规范的涌现,社会冲突的数量在减少甚至几乎消失

  • 沟通过程中产生的对话和观察过程中产生的想法能够推动社会规范的出现

  • 接受和遵从社会规范对生成式智能体而言“说起来容易做起来难”

  • ……



真人评测

为了评估 CRSEC 架构在人类眼中的表现,我们招募了 30 名人类评估员。我们从五次实验中随机选取了三次,共计 30 个生成式智能体。每位评估员的任务是进行角色扮演:评估员通过阅读智能体的角色描述,观看智能体两天生活的行为重放,然后填写一份调查问卷。


该问卷按照模块划分,包含多个问题,要求评估员按照 7 级李克特量表(7-point Likert scale)针对该智能体的 LLM 输出进行满意度评分。下图展示了评估结果,结果表明评估员对智能体的行为表现持满意态度,证实了我们架构的有效性。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


···

相关推荐

  • 拷打大模型!首个基于弱智吧贴文的大模型谬误理解评测基准
  • 【社会招聘】快手大模型中心_大模型算法专家
  • 大厂数仓模型设计及工具模板
  • 时间序列 AI 技术与大模型:蚂蚁集团的实践与应用探索
  • 万亿数据的电商平台,如何做存储?
  • XAI有什么用?探索LLM时代利用可解释性的10种策略
  • Meta宣布全新训推一体加速器:完全集成PyTorch 2,性能3倍提升
  • 为什么要纯C语言手搓GPT-2,Karpathy回应网友质疑
  • 史上首位阿贝尔奖、图灵奖双得主!2023图灵奖授予随机性大佬Avi Wigderson
  • 若通过验证可颠覆美国后量子密码设计,清华陈一镭预印论文破解格密码
  • 长文本杀不死RAG:SQL+向量驱动大模型和大数据新范式,MyScale AI数据库正式开源
  • 更好、更安全、更不依赖OpenAI,微软的AI新动向,推出大模型安全工具Azure AI
  • 编程的“Devin AI 时代”,软件开发者的喜与忧
  • 从AIGC到AGI,为什么我们需要更多的“技术信仰派”?
  • 「大模型+强化学习」最新综述!港中文深圳130余篇论文:详解四条主流技术路线
  • 量子计算可靠性提升800倍!微软开启2级弹性量子计算新时代
  • 史上首次,AI超越人类奥赛金牌得主!吴方法加持,30题做出27道破纪录
  • 2023年图灵奖揭晓!普林斯顿数学教授,成史上首位阿贝尔奖双料获奖者
  • 国内首款AI音乐大模型一曲封神!核心技术业内首公开,爆改霉霉周杰伦效果惊艳
  • “为什么裁员先从技术人员开始?”