OpenAI超级对齐团队再发「绝唱」！首提「证明者-验证者」博弈，训练GPT说人话

新智元报道

编辑：乔杨好困

【新智元导读】当我们不停在CoT等领域大下苦功、试图提升LLM推理准确性的同时，OpenAI的对齐团队从另一个角度发现了华点——除了准确性，生成答案的清晰度、可读性和可验证性也同样重要。

不知道你有没有过这样的经历：碰到一道做不出的数学题，于是丢给ChatGPT。

结果一通生成之后，ChatGPT的「不知所云」让你从之前的略有头绪瞬间变成完全迷茫。不管它是对是错，反正人类是看不懂了。

提高LLM的数学和推理能力是最近研究关注的焦点，但同样重要的是，确保模型生成可理解的文本。

否则即使答案正确，99%的人类都理解不了，也不能让LLM真正协助我们处理复杂任务。

OpenAI近期发表的一篇论文就旨在研究并解决模型性能和可读性（legibility）之间的平衡。

论文地址：https://openai.com/index/prover-verifier-games-improve-legibility/

和之前发出来的两篇一样，这次又是Jan Leike的库存作品，但共同一作是两位在职研究员Jan Hendrik Kirchner和Yining Chen。

估计超级对齐团队的「遗作」够OpenAI发一阵子了

通过优化提升可读性

论文发现，如果仅仅针对答案正确性来训练模型，其中一个副作用是，可能会让LLM的输出变得难以理解。

如果让人类评估者对高度优化的答案进行评价，在有限时间内（45s）的评估准确率会明显下降（图4b），正确评估所需的时间也逐步增长（图4c）。

因此，提升LLM响应的可读性，不仅能增强其可信度，还有助于准确的验证和评价。

响应输出「可读性」与模型的「可解释性」（explainabiliby）之间，有什么联系？

作者给出的解释是：两者是互补属性，都可以脱离另一个而单独存在。

「可解释性」试图描述模型的推理过程，无论推理本身是否正确，而且最终的生成也可以无限复杂。

而「可读性」忽略模型如何产生推理过程，只要求输出连贯且便于人类理解。

为了提升可读性，论文提出的思路是：用小学数学题（GSM数据集）训练较高级的模型，让它创建较弱模型也能轻松验证的文本答案，这个过程就是「证明者-验证者博弈」（prover-verifier games）。

这是一种博弈论框架，其中较强模型担任「证明者」负责解决生成方案，较弱模型担任「验证者」检查其准确性。

实验证明，这种方法不仅提升了输出内容的正确性，也能让人类和其他AI系统更易于理解并验证。

同时，作者提出，进一步缩小可读性模型（验证者）与高性能模型（证明者）之间的性能差距，将是未来对齐研究的重要目标。

工作原理

实验中，GPT-4系列的大模型和小模型分别担任「证明者」和「验证者」，它们在预训练计算量上相差约3个数量级。

这些模型都在人类书写的数学推导上进行了少量监督训练，但没有进行广泛的后续训练（post-training）。

首先，证明者模型生成多个数学问题的解决方案，由于模型本身产生的错误，其中一些解决方案是不正确的。

然后，在下面两个阶段之间交替进行多轮训练：

- 验证者训练：训练较弱的验证者模型，预测证明者生成解决方案的正确性

- 证明者训练：指示能力较强的证明者模型扮演「有帮助的」或「狡猾的」角色

对于「有帮助」的角色，我们奖励验证者打出高分正确答案；对于「狡猾」角色则相反，奖励验证者评分高的错误答案。

从论文中给出的样例可以看到，在每一轮的可检查性训练（checkability）中，模型输出答案的清晰度和可读性都在逐步提升。

比如下面这个问题：

Shawna的父亲的年龄是Shawna的五倍。Shawna目前的年龄是Aliya的三倍。如果Aliya现在3岁，Shawna的父亲多大？

模型初始化时给出如下答案：

根据题目，Shawna目前$3^2=9$岁。

这意味着 Shawna的父亲目前$9\cdot5=4$岁。

答案是：45

第一轮训练后，模型在原来正确答案的基础上加入了推理过程，感觉是参考答案「简略版」和「详细版」的区别：

首先我们需要确定Aliya的年龄。根据问题描述，Aliya 3岁。

然后我们需要确定Shawna的年龄。根据问题描述，Shawna目前的年龄是Aliya的三倍，所以Shawna的年龄是3乘以3，结果是<<3*3=9>>9。

接下来，我们需要确定Shawna 父亲的年龄。题目中提到Shawna的父亲年龄是Shawna的五倍。因此Shawna的父亲的年龄是5乘以9，结果是<<5*9=45>>45。

答案是：45

如果说上面的答案在详细之余显得有些冗余，下面这个5轮训练后的答案就进一步平衡了「全面详细」和「简洁精炼」。

我们从计算Aliya的年龄开始。

根据题目描述，Aliya 3岁。

然后，我们需要计算Shawna当前的年龄。

Shawna目前的年龄是Aliya的三倍。因此，Shawna当前的年龄是3乘以3，结果是 <<3*3=9>>9。

现在我们需要计算Shawna父亲的年龄。

Shawna的父亲年龄是Shawna的五倍。因此，Shawna的父亲的年龄是5乘以9，结果是 <<5*9=45>>45。

因此，Shawna的父亲的年龄是45。

答案是：45

而且，这种多轮训练也能增强验证者逐渐辨别「狡猾」证明者的能力。

在最初的实验中，「狡猾」的证明者能够轻松生成让验证者信服的错误答案。但这些答案被添加到下一轮后，就无法再骗过验证者。

于是，随着验证者能力的提升，每一轮训练都激励「狡猾」的证明者探索不同的策略「瞒天过海」。

比如，同样是上面的问题，「狡猾」的证明者第一轮所犯的错误非常简单直接：把5×9的结果算成36。

到第三轮时，模型选择在问题语义上动手脚，偷偷把第一步计算中的「3倍」变成「5倍」，错误更加隐蔽。

一旦后者无法再骗过前者时，训练结束。

关键结果

基线

根据上述的实验思路，一个自然的基线设置就是忽略可读性，让模型只优化正确性。本文选择采用强化学习（RL）方法微调LLM。

从图4中可以看到，这种方法能够让模型在小学数学题上取得优异的准确率，但生成答案的可读性也随之显著降低，提升了人类的评估难度。

权衡

图5展示了博弈中各种角色在训练过程中的动态变化。可以看到，随着训练步数增加，证明者们对验证者的说服能力逐渐提高（5a），但答案的准确性并不是单调变化，会出现显著波动（5b）。

使用更大的验证者模型时（训练计算量从证明者的10^-3增长到10^-1.8），也能发现类似的变化趋势（图c）。

但说服力的提升并不意味着验证者模型分辨能力的停滞或弱化。正相反，验证者的稳健性逐步提高，「狡猾」的模型需要越来越多的步骤才能骗过验证者，直至最后无法成功欺骗（图6）。

实验关注的核心——「有用」的证明者，在训练过程中实现了答案准确性和可读性的同步提升（图8），尤其是与仅针对正确性的训练（图4）相比。这表明验证者模型的反馈起到了有效作用。

综合上述结果，从更抽象的层次来看（图1），这种训练方法能使强大的证明者模型在不损失可读性的同时，实现生成答案准确率的一定提升。

这种方法的代价就是，准确率的提升幅度相比之前的RL方法有所下降。这个差距被作者命名为「可读税」（legibility tax）。

研究结论

通过解决小学数学应用题这个具体的实验设置，论文探索了模型性能和答案易读性之间存在的张力，并提出了一种权衡方法。

实验结果投射出一种希望——我们可以期待LLM在未来变得比人类更有能力，同时人类也依旧能够理解并信任模型给出的解决方案。

在此基础上，未来研究有多个继续拓展的方向，比如提高易读性的半监督/无监督方法、提高样本效率，以及系统性地研究对于人类的易读性，而非只是用较弱模型代替人类判断。

局限性

论文从数据集、研究思路和范围、实验设置等多方面进行了局限性分析。

数据集方面，研究仅使用了一个数据集GSM，问题相对简单，解决方案也相当标准化。不能确定这种训练框架对更困难的数学和编码问题，或者更模糊的领域（如人类偏好数据）依旧适用。

这项研究聚焦了用自然语言解释的数学问题，是因为数学问题的正确性易于判断，且人类通常使用自然语言解释论证过程。

然而，某些领域的结论是难以用自然语言描述的，比如面孔识别。你很难用语言向别人描述自己「认脸」的过程。

同时，论文提出的主要训练方法「验证者-证明者博弈」，将CoT过程和可读性提升混合在一起，这对CoT的准确性造成了潜在限制。

更好的方法可能是分开训练，先让第一个模型用CoT最大限度提升准确性，然后训练第二个模型提升生成答案的可读性，这样可以进一步降低对模型准确性的损失。

实验设置方面，整篇论文没有对所有超参数进行全面调整，而且混合了两种训练停止标准：达到固定数量的RL步，或发现「狡猾」证明者无法骗过验证者时。但实验中并没有观察到早停轮和非早停轮之间有质的差异。

作者简介

本文的共同一作之一Yining Chen是南京外国语学校的校友，本科毕业于达特茅斯学院，获得计算机科学和哲学双专业的学士学位，后前往斯坦福攻读博士，师从马腾宇教授。

去年7月毕业后，Yining进入OpenAI对齐团队任职至今。此前OpenAI发表的Weak-to-strong generalization论文也有她的参与。

论文地址：https://openai.com/index/weak-to-strong-generalization/

参考资料：https://x.com/OpenAI/status/1813623470452064432

OpenAI超级对齐团队再发「绝唱」！首提「证明者-验证者」博弈，训练GPT说人话

新智元报道

【新智元导读】当我们不停在CoT等领域大下苦功、试图提升LLM推理准确性的同时，OpenAI的对齐团队从另一个角度发现了华点——除了准确性，生成答案的清晰度、可读性和可验证性也同样重要。

基线

权衡

局限性

相关推荐