https://arxiv.org/pdf/2406.18676
代码链接:https://github.com/dongguanting/DPA-RAG
在理想的检索增强生成(RAG)系统,我们希望大语言模型(LLM)通过参考与其知识偏好一致的文档来增强他的推理能力。然而在实际应用中,检索器和大模型作为 RAG 系统的两个独立组件,具有不同的模型架构、训练目标和任务范式。这些差异导致基于向量相似度检索的文档难以完全匹配 LLMs 推理时的知识需求。除此以外,检索到的文档甚至可能与 LLMs 的自身知识冲突,破坏 LLM 原有的推理能力。
如图所示,我们对 GPT-3.5 在三个 QA 数据集上比较了两种实验设置:让大模型直接回答问题和参考不同相似度的检索文档回答问题,每个问题的结果可以分为四种情况:完全正确:LLM 直接回答与参考检索文档均能回答正确
对齐知识:LLM 直接回答错误,但参考检索文档均能回答正确。
未对齐知识:LLM 直接回答正确,但参考检索文档回答错误。
完全错误:LLM 直接回答与参考检索文档均能回答错误
在“检索知识对齐”情况下,向量相似度极低的文档(第100名)仍能支持 LLM 推导出正确答案。
相反,在“检索知识未对齐”场景中,向量相似度高的文档(第10名)甚至比相似度低的文档(第100名)更容易误导 LLM。
令人意外的是,一些含有答案事实信息的文档也难以与 LLM 的偏好对齐。
DPA-RAG 共分为三个阶段:偏好知识构建,Reranker 与 LLM 间对齐,LLM 自我对齐。
2.1 偏好知识构建2.1.1 偏好知识提取为了与 LLMs 的知识偏好对齐,我们首先应该定位能提高/削弱 LLM 推理性能的知识。我们设计了以下方法:2.1.2 多样化查询增强
由于偏好数据集 的样本并不充足,这很大程度降低了数据的多样性与复杂性。因此,我们进一步贴合 RAG 系统精心设计了五种查询增强策略:2.2 Reranker与LLM间对齐
在获得 LLM 偏好数据后,我们引入了多粒度偏好对齐任务,将偏好知识蒸馏到重排器(Reranker)中,为检索器与 LLM 的知识偏好对齐搭建桥梁。2.2.1 Point-wise偏好对齐区分知识对于 LLMs 的有益或有害是 Reranker 最应具备的基础能力。我们用交叉熵损失训练 Reranker,来学习文档 对于查询 属于“对齐知识”还是“未对齐知识”: 其中, 是标签(正向/负向),用于判断 是否为对齐或未对齐知识。2.2.2 List-wise偏好对齐进一步的,我们提出 List-wise 偏好对齐目标,让 Reranker 获得精细化排序偏好知识的能力。对于每个查询 的 K 个文档集合 ,我们利用 RAG 系统中的 LLM 作为偏好奖励模型 对文档进行评分,无需外部专家模型。而为减轻 LLM 偏好评分的偏见,我们对 LLM 偏好评分 和检索器的向量相似度得分 进行归一化加权求和:通过偏好得分我们可以进一步得到 LLM 的知识偏好顺序 ,并使用 RLHF 损失训练到 Reranker 中:其中, 和 表示文档 和 的标签,对应偏好顺序中的“赢”或“输”。 表示输出的 logits。2.2.3 对比偏好对齐
为防止 LLM 被高度相似但未对齐的知识误导,我们进一步引入对比偏好对齐损失 来优化表示空间。我们基于监督对比学习,将对齐的文档作为正样本 ,从 batch 中随机采样文档作为负样本 :其中, 是每个批次中的样本数, 表示批次中标签与 相同的样本数, 是温度参数, 是指示符。多任务优化最后,我们采用 MGDA-UB 方法优化多任务的权重 ,实现最终的多粒度对齐损失函数:2.3 LLM自我对齐
在初步对齐外部 RAG 组件的偏好后,我们希望指导 LLM 在推理过程中关注对齐知识,来实现内部知识对齐。首先我们引入了一个知识预对齐阶段:2.3.1 预对齐阶段如图所示,对于每个样本,我们随机选择一个“对齐”或“未对齐”的文档 ,以及 k-1 个随机文档来构成一个 top-k 文档集 ,我们希望通过区分 ,让 LLM 会隐式学习从 Top-K 文档中捕捉对齐自我偏好的知识。2.3.2 监督微调阶段
在预对齐任务后,我们加载预训练参数并使用相同的目标函数进行后续的监督微调(SFT)阶段。我们使用传统的 QA 格式训练集 ,并使用已偏好对齐的重排序器 对训练集的文档重排序进行 LLM 监督微调。预对齐阶段学习到的偏好知识识别能力使 LLM 在 SFT 阶段更有效地关注对齐知识,从而进一步解锁 LLM 内部的对齐潜力。本文在预对齐阶段后对 QA 数据集进行顺序 SFT(逐步微调)。而另一种策略是将偏好数据与 QA 任务数据直接混合进行联合训练。与标准 QA 微调相比,我们发现直接混合两种任务的训练数据会导致明显的性能下降和波动。这可能是由于多任务训练中的优化冲突。然而,在预对齐阶段后的顺序训练则表现出稳定的性能提升,说明了顺序训练的有效性。
实验结果表明,DPA-RAG 在四个知识密集的 QA 数据集上都优于所有强大的基线方法。广泛的分析还为构建可靠的 RAG 系统提供了实用的见解。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧