https://arxiv.org/abs/2203.02155
在RLHF出现之前,LLM存在着各种依赖输入提示prompt生成多样化文本,但是对于生成结果的难以进行评估。比如模型生成故事,文本,或者代码片段,这些生成结果难以通过现有的基于规则的文本生成指标(BLEU和ROUGE指标)来进行衡量。除了上述的评估指标,现在的模型通常通过预测下一个token的形式和简单的损失函数比如交叉熵损失函数来进行建模,没有显示的引入人的偏好和主观意见。因此OpenAI提出使用生成文本的人工反馈作为性能衡量指标,或者进一步用该损失来优化模型,也即RLHF的思想:使用强化学习的方式直接优化带有人类反馈的语言模型。RLHF的三个阶段
RLHF需要三阶段的训练:SFT,RM,PPO。但PPO对超参数比较敏感,并且RLHF在训练阶段需要四个模型,因此RLHF的方法难以训练。因此本文作者提出RRHF,通过对来自不同来源的响应(自身的模型响应,其他大型语言模型响应和人类专家响应)进行打分,并通过排序损失函数使得这些概率和人类偏好保持一致。RRHF只需要1-2个模型,并且不需要复杂的调优,可以看作是SFT和RM模型训练的一个扩展。RRHF在helpful和harmless数据集上进行测试,表明和PPO一致的性能。RRHF的优化目标是基于响应概率的对数损失。RRHF首先搜集到各种响应信息(模型自身产生,GPT产生,已经存在的人类标注)。RRHF随后在各种相应上进行训练,输出响应概率,并进行排序,随后利用rank loss进行排序优化。与RLHF相比,PPO采用advantage function来估计状态-动作对与基线相比是更好还是更差,并提供优化信号,RRHF不需要和基线进行对比,只需要依照排序信息进行优化。PPO需要采用KL散度来保证actor model和ref model不会差的太远,而RRHF在训练之前只使用模型本身进行采样,因此RRHF只需要1-2个模型。RRHF的损失函数主要有两个,一个是针对RM的得分排名损失函数,一个是针对得分最高的分数,计算对数损失函数,因此RRHF本质上是一个选择best-of-n的过程。RRHF和之前工作的联系RRHF
https://arxiv.org/abs/2210.11416
这篇论文是ChatGPT之前做的比较好的对齐工作,其核心思想就是探究增加数据集的规模,增加模型的大小,增加COT的数据对于模型的性能和泛化能力的影响。其实验结果从下面两张图可以看出FLAN
https://arxiv.org/abs/2210.11416
与RRHF中所提到的一样,RLHF需要超参数以及四个模型,本文提出新的范式,支持以封闭的形式提取响应的最优策略,只需要简单的分类损失就可以解决标准的RLHF问题。DPO的流程如下所示,左边的是RLHF的流程,通过显式的构建RM来让模型学习到人类偏好,而DPO则是隐式的拟合RM模型。DPO的损失函数如下所示和RLHF的损失函数相比,省去了RM模型的显式打分,而是将打分的分值间接的通过差值表现出来,同时也将KL散度约束写到同一个损失当中。DPO的整个流程线如下所示:DPO
https://arxiv.org/abs/2305.18290
扫描二维码添加小助手微信
请备注:姓名-学校/公司-研究方向(如:小张-哈工大-对话系统)即可申请加入自然语言处理/Pytorch等技术交流群