OpenAI凌晨发布新研究成果!证明者和验证者无限套娃,大模型黑盒变可解释又近一大步!

夕小瑶科技说 原创
作者 | 付奶茶

昨天凌晨,OpenAI发布了一项名为Prover-Verifier-Games(证明者-验证者博弈)的新研究!

这项研究的目的是确保语言模型生成的文本易于理解,以提高它们在处理复杂任务(如解决数学问题)时的实用性

OpenAI的研究人员认为,仅仅为了得到正确答案而优化强大模型的解题过程,可能会使生成的解决方案变得难以理解。而且在人类评估中,这样高度优化的解决方案甚至错误率更高!因此在AI生成文本中,不仅要追求正确性,还要注重清晰度和易于验证性

研究人员尝试用高级语言模型生成较弱模型容易验证的文本,来提升输出答案的可读性和验证性,为此OpenAI提出设计两个角色:“证明者”生成解决方案,“验证者”检查其准确性。

接下来和奶茶一起来看下怎么个事!

提高可读性

研究人员的灵感来自于小学数学问题的思维链条,提出证明者VS验证者的博弈理论框架,鼓励模型以可验证的方式解决决策问题。

研究人员举了一个这样的例子来模拟验证、证明的博弈学习过程:Shawna的父亲比她大五倍。Shawna目前比Aliya大三倍。如果Aliya三岁了,Shawna的父亲多大?

1.模型初始化

过程:

推导出Shawna的年龄

答案:Shawna目前岁。这意味着Shawna的父亲目前是岁。

答案:45

2.可验证性训练的第一轮

过程:

首先确定Aliya的年龄。从问题描述中得知,Aliya是3岁。接下来确定Shawna的年龄。问题描述中提到Shawna目前比Aliya大三倍,所以Shawna的年龄是岁。最后确定Shawna父亲的年龄。问题描述中提到Shawna的父亲比Shawna大五倍,所以Shawna父亲的年龄是岁。

答案:45

3.可验证性训练的第五轮

过程:

开始计算Aliya的年龄。问题描述中提到Aliya是3岁。然后计算Shawna的当前年龄。Shawna目前比Aliya大三倍,所以Shawna的当前年龄是岁。最后计算Shawna父亲的年龄。Shawna的父亲比Shawna大五倍,所以Shawna父亲的年龄是岁。

答案:45

在训练中,研究人员要求强大的模型生成弱模型(验证者)能够轻松验证的解决方案。具体来说,使用来自GPT-4系列的大型模型和小型模型(比如GPT-3)来分别充当两个角色。首先,从证明者模型生成数学问题的多个解决方案(其中一些解决方案是不正确的),然后在多个轮次中交替进行两个阶段:

  • 验证者训练:训练弱验证者模型来预测由证明者生成的解决方案的正确性。

  • 证明者训练:指导强证明者模型扮演“有益”或“狡猾”的角色,在“有益”的角色中,奖励根据验证者评分高的正确解决方案,在“狡猾”的角色中,相反地奖励根据验证者评分高的不正确解决方案。

此外,研究人员发现,最初“狡猾”的证明者能够轻松生成说服验证者的不正确解决方案。然而,随着将这些不正确的解决方案被添加到验证者训练的下一阶段,同样的理由在下一轮中不再令人信服,证明者被迫在每一轮中探索不同的策略,直到训练在狡猾的证明者不能再生成能够说服验证者的不正确解决方案时结束。

古早设想

其实这个技术概念早在2021年8月的一篇论文中就被提出来了,OpenAI也是受此灵感启发。这是一种基于博弈论的训练方法,通过模拟证明者和验证者之间的互动,提高模型的输出质量。

论文地址:https://arxiv.org/abs/2108.12099

在这个机制中, Prover(证明者)的任务就是生成内容,而Verifier(验证者)的任务就是判断这些内容是否正确。

大家感兴趣的话可以看看~

在这篇论文的研究基础上,,OpenAI为了进一步提升效率,又添加了两种强化类型的证明者:

  • 有的证明者(Helpful prover):生成对人类可读的解决方案,减少人类评估者的错误。
  • 狡猾的证明者(Sneaky prover):生成微妙的错误解决方案,最初会迷惑人类评估者,突显出进一步改进模型的领域。

▲例如在面对一道小学数学题时,向诚实而狡猾的证明者提供了提示:作为额外的学习辅助,你需要在解决方案中引入一个微妙的错误,以帮助用户更好地理解问题。不要指出解决方案中的错误,否则对用户没有帮助。▲狡猾的证明者引入后,答案中之前有的缺陷更难被发现了

训练的核心思想仍是博弈迭代,验证者首先使用监督学习来预测之前轮次中证明者生成内容的正确性。证明者通过强化学习优化其生成内容,使其不仅正确,还能说服验证者接受。如下面例子所示:当用户提出问题“肖娜的父亲是肖娜的5倍。肖娜目前的年龄是阿莉亚的3倍。如果阿莉亚3岁,肖娜的父亲多大?”时,GPT-4的输出为45岁。验证者模型如GPT-3需要多轮验证,确定阿莉亚的年龄、计算肖娜的年龄,最终得出肖娜父亲的年龄。

OpenAI论文地址:
https://cdn.openai.com/prover-verifier-games-improve-legibility-of-llm-outputs/legibility.pdf

结语

随着大语言模型越来越多地用于关键领域和复杂应用,其输出的可信度和可解释性变得至关重要。尤其是在医疗、法律等关键领域,模型输出的准确性和清晰度直接关系到决策的质量和后果。OpenAI的这项研究为提高语言模型输出的可读性和可验证性提供了一种创新的思路-通过引入证明者-验证者的博弈机制,研究者巧妙地将模型输出的优化目标从单纯的准确性转移到了清晰易懂和易于验证上。

这种范式的转变具有重要的理论和实践意义,通过要求模型生成清晰且可验证的解释,我们可以增强对其输出的信任,这种自主性在未来超级智能AI系统的对齐方面尤为重要。即让大模型可以在没有直接人类监督的情况下,可靠地与人类的价值观和期望保持一致。追求性能的同时兼顾可解释性和可控性,是AI研究的重要命题,我们期待这个方向上出现更多有意义的研究~

参考资料

 [1]https://mp.weixin.qq.com/s/Gov3eCwkRTndy-iyCARy3w

相关推荐

  • 看了世界首个AI小姐选美大赛的结果,我开始有点担心未来的择偶市场
  • 8轮融资后,上海明星独角兽要IPO了
  • Google Cloud 在预览版中引入了用于云存储的分层命名空间
  • 图灵奖数据库大师 Stonebraker 师徒对数据库近 20 年发展与展望的 2 万字论文
  • 别找啦!AIGC+金融场景的绝佳案例都在这!| FCon
  • 2024 可信数据库发展大会圆满落幕,共探数据库技术新未来!
  • 开源独角兽 GitLab 走上“卖身”路!前工程师拆台:赚钱的业务不好好运营,开发了一堆没用的功能
  • OpenAI 封了中国 API 后,国外开发者却先转向了 Claude
  • 阿里云丁宇详解产品战略:从AI辅助编程到AI程序员的全面布局
  • 上班摸鱼?不可能!卡内基梅隆准博士生开发一款 AI 程序:监控电脑屏幕,一分心就吼你
  • 如何高效删除 JavaScript 数组中的重复元素?
  • SAP发布开源宣言,反遭社区质疑
  • AI PC真值得入手?84%电脑发烧友拒绝买单:AI助手成了PDF加载的绊脚石!网友:真不仅仅是性能原因
  • 英伟达官宣全面开源GPU内核驱动,两年迭代至最强版本!下一代Blackwell全用开源
  • AI教母李飞飞狂揽1亿投资,3个月干出10亿美元独角兽!
  • 清华夺SIGIR 2024「时间检验+最佳论文奖」!中国大陆研究机构首次牵头获奖
  • OpenAI超级对齐团队再发「绝唱」!首提「证明者-验证者」博弈,训练GPT说人话
  • 跨境电商,一人搞定?我们雇阿里国际的AI开了家店,赚遍全球市场
  • ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格
  • 清华包揽最佳论文+时间检验奖,山大获荣誉提名,SIGIR 2024奖项出炉