什么是大模型所需要的知识?人大提出DPA-RAG高效对齐检索器与大模型偏好

论文标题:

Understand What LLM Needs: Dual Preference Alignment for Retrieval-Augmented Generation

论文链接:

https://arxiv.org/pdf/2406.18676

代码链接:

https://github.com/dongguanting/DPA-RAG



检索器与大模型存在偏好差异吗?

在理想的检索增强生成(RAG)系统,我们希望大语言模型(LLM)通过参考与其知识偏好一致的文档来增强他的推理能力。然而在实际应用中,检索器和大模型作为 RAG 系统的两个独立组件,具有不同的模型架构、训练目标和任务范式。这些差异导致基于向量相似度检索的文档难以完全匹配 LLMs 推理时的知识需求。除此以外,检索到的文档甚至可能与 LLMs 的自身知识冲突,破坏 LLM 原有的推理能力。

如图所示,我们对 GPT-3.5 在三个 QA 数据集上比较了两种实验设置:让大模型直接回答问题和参考不同相似度的检索文档回答问题,每个问题的结果可以分为四种情况:
  • 完全正确:LLM 直接回答与参考检索文档均能回答正确

  • 对齐知识:LLM 直接回答错误,但参考检索文档均能回答正确。

  • 未对齐知识:LLM 直接回答正确,但参考检索文档回答错误。

  • 完全错误:LLM 直接回答与参考检索文档均能回答错误

我们有以下发现:
  • 在“检索知识对齐”情况下,向量相似度极低的文档(第100名)仍能支持 LLM 推导出正确答案

  • 相反,在“检索知识未对齐”场景中,向量相似度高的文档(第10名)甚至比相似度低的文档(第100名)更容易误导 LLM

  • 令人意外的是,一些含有答案事实信息的文档也难以与 LLM 的偏好对齐

这些结果印证了“检索到的文档不完全匹配 LLM 推理的知识偏好”的观点。因此,减少 LLM 与检索器之间的偏好差异是构建可靠的 RAG 系统的关键挑战。



双重偏好对齐方法:DPA-RAG

DPA-RAG 共分为三个阶段:偏好知识构建,Reranker 与 LLM 间对齐,LLM 自我对齐。

2.1 偏好知识构建2.1.1 偏好知识提取为了与 LLMs 的知识偏好对齐,我们首先应该定位能提高/削弱 LLM 推理性能的知识。我们设计了以下方法:
  • 数据准备:给定训练集 ,包含查询 、Top-K 检索文档集 和答案  
  • 文档选择:从前 k 个检索文档 中分层抽样四个文档(第 1、25、50、100 个)构成文档子集
  • 结果分类:对于每个问题,让 LLM 直接回答/参考文档回答,并对结果打上“两者正确”、“两者错误”、“对齐知识”和“未对齐知识”的偏好标签。
  • 样本筛选:从训练集中筛选样本,要求文档子集至少包含一个“对齐知识”或“未对齐知识”的文档,构建偏好数据集
这样帮助我们精确地提取能够影响 LLM 推理表现的知识,提升模型的可靠性。

2.1.2 多样化查询增强

由于偏好数据集 的样本并不充足,这很大程度降低了数据的多样性与复杂性。因此,我们进一步贴合 RAG 系统精心设计了五种查询增强策略:
  1. 改写(Rephrasing):用相同意图改写原查询。
  2. 复杂化(Complexity):增加原查询的语义复杂度。
  3. 分解(Decomposition):将原查询分解成多个子问题。
  4. 约束(Constraint):在原查询中添加更多条件和约束语句。
  5. 查询语言(SPARQL):基于 SPARQL 语法重写原查询并直接生成。
我们使用 GPT-3.5 生成 5 种增强数据集并与原始数据集合并。为了保证增强数据质量,我们使用 NLI 模型对原始查询 与增强查询 意图进行一致性判断:,并过滤“矛盾”标签的增强数据以保证数据质量。

2.2 Reranker与LLM间对齐

在获得 LLM 偏好数据后,我们引入了多粒度偏好对齐任务,将偏好知识蒸馏到重排器(Reranker)中,为检索器与 LLM 的知识偏好对齐搭建桥梁。2.2.1 Point-wise偏好对齐区分知识对于 LLMs 的有益或有害是 Reranker 最应具备的基础能力。我们用交叉熵损失训练 Reranker,来学习文档 对于查询 属于“对齐知识”还是“未对齐知识”:

其中, 是标签(正向/负向),用于判断 是否为对齐或未对齐知识。2.2.2 List-wise偏好对齐进一步的,我们提出 List-wise 偏好对齐目标,让 Reranker 获得精细化排序偏好知识的能力。对于每个查询 的 K 个文档集合 ,我们利用 RAG 系统中的 LLM 作为偏好奖励模型 对文档进行评分,无需外部专家模型。而为减轻 LLM 偏好评分的偏见,我们对 LLM 偏好评分 和检索器的向量相似度得分 进行归一化加权求和:通过偏好得分我们可以进一步得到 LLM 的知识偏好顺序 ,并使用 RLHF 损失训练到 Reranker 中:其中, 表示文档 的标签,对应偏好顺序中的“赢”或“输”。 表示输出的 logits。

2.2.3 对比偏好对齐

为防止 LLM 被高度相似但未对齐的知识误导,我们进一步引入对比偏好对齐损失 来优化表示空间。我们基于监督对比学习,将对齐的文档作为正样本 ,从 batch 中随机采样文档作为负样本 其中, 是每个批次中的样本数, 表示批次中标签与 相同的样本数, 是温度参数, 是指示符。多任务优化最后,我们采用 MGDA-UB 方法优化多任务的权重 ,实现最终的多粒度对齐损失函数:

2.3 LLM自我对齐

在初步对齐外部 RAG 组件的偏好后,我们希望指导 LLM 在推理过程中关注对齐知识,来实现内部知识对齐。首先我们引入了一个知识预对齐阶段:2.3.1 预对齐阶段如图所示,对于每个样本,我们随机选择一个“对齐”或“未对齐”的文档 ,以及 k-1 个随机文档来构成一个 top-k 文档集 ,我们希望通过区分 ,让 LLM 会隐式学习从 Top-K 文档中捕捉对齐自我偏好的知识。

2.3.2 监督微调阶段

在预对齐任务后,我们加载预训练参数并使用相同的目标函数进行后续的监督微调(SFT)阶段。我们使用传统的 QA 格式训练集 ,并使用已偏好对齐的重排序器 对训练集的文档重排序进行 LLM 监督微调。预对齐阶段学习到的偏好知识识别能力使 LLM 在 SFT 阶段更有效地关注对齐知识,从而进一步解锁 LLM 内部的对齐潜力。



实验3.1 主实验

1. 性能显著提升:DPA-RAG(LLaMA2-7B)在所有四个数据集上相比传统 RAG 基线有超过 5% 的显著性能提升。这一现象在 Qwen2-7B、LLaMA3-8B、GPT-3.5 和 GPT-4 等多个模型中都非常一致,展示了方法的适用性和有效性。2. 小型 Reranker 性能优异:较小的 Reranker 如 BGE 和 ColBERTv2 可以达到或超过基于大型语言模型作为 Reranker 的性能。这证明了我们选择 BGE 作为对齐基础的动机,因为它在高效性和有效性之间达到了平衡。3. 数据筛选是偏好对齐:在偏好对齐方法中,DPA-RAG 优于基于 logits 的直接对齐方法(如 REPLUG),强调了多层次对齐的重要性。除此以外,使用 Filco 数据过滤也展现了强大的对齐能力,这说明训练语料库中存在未对齐的知识。进一步突出我们在数据层进行偏好优化的重要性。3.2 模型参数量尺度分析

1. RAG 能力在低参数规模(<7B)下性能急剧提升:在 TQA 与 HQA 上,随着参数从 500M 增加到 7B,RAG 的性能(F1 分数)急剧上升了 40%,然后在参数超过 7B 后趋于稳定。这表明 RAG 能力的出现与模型参数之间有强烈的关联。在某个阈值(7B)以下,模型参数量增加会带来 RAG 能力显著提升。2. DPA-RAG 的性能增益更稳定:与基线相比,DPA-RAG 在参数扩展的过程中提供了稳定的性能提升,并在两个数据集上展示了较为平滑的性能增长曲线。3. DPA-RAG 在不对齐数据集上表现更强:DPA-RAG 在 TQA 和 HQA 数据集上的性能增益呈现出有趣的差异。在 TQA 中,7B 模型的平均 F1 分数已超过 60,这也使得偏好对齐带来的进一步提升空间有限。反观 HQA ,由于存在更多未对齐的知识且平均 F1 分数低于 50,DPA-RAG 提供的对齐增益更为明显。3.3 偏好对齐分析

DPA-RAG 在“对齐知识”类别表现优异,同时显著减少了“未对齐知识”类别。这表明 DPA-RAG 能够有效地对齐了检索器与LLM 的知识偏好。有趣的是,DPA-RAG 在“完全正确”类别的改进,甚至超过了“对齐知识”类别。考虑到“未对齐知识”显著减少,这表明 DPA-RAG 优先解决了检索文档中的冲突。这与我们流程的核心原则一致:首先通过偏好对齐的 Reranker 从外部对齐知识,然后通过自对齐阶段让 LLM 捕捉内部的偏好对齐信息。3.4 数据增强讨论为研究我们扩充后的查询在 RAG 性能上的影响,我们随机选择每个数据集的 1,000 个样本,并使用 Intag 技术进行开放意图标注。我们通过以下公式计算:多样性 = 唯一标签数样本总数与复杂性标签总数样本总数。图中展示了增广数据的质量,说明我们的五种方法一致地提高了数据复杂性。特别是复杂化(Complexity)和分解方法(Decomposition)显著提升了复杂性和多样性分数。进一步的,我们按实际比例将扩充数据与原训练集混合,计算数据质量。表中显示所有五种增广策略都在不同程度上提高了 LLM 的性能。令人惊讶的是,当我们综合这两个指标时,NQ 的整体性能趋势随总质量分数的增长而增加。这个发现进一步验证了在 RAG 任务中,RAG 的能力与查询的复杂性和多样性高度相关。3.5 顺序训练 vs. 混合训练

本文在预对齐阶段后对 QA 数据集进行顺序 SFT(逐步微调)。而另一种策略是将偏好数据与 QA 任务数据直接混合进行联合训练。与标准 QA 微调相比,我们发现直接混合两种任务的训练数据会导致明显的性能下降和波动。这可能是由于多任务训练中的优化冲突。然而,在预对齐阶段后的顺序训练则表现出稳定的性能提升,说明了顺序训练的有效性。



结论在本文中,我们揭示了 RAG 组件之间固有的偏好差异,并首次提出了 DPA-RAG 以对齐多样的知识偏好。具体来说,我们逐步从训练集中提取并过滤 LLM 偏好的知识,并提出五种高质量的查询扩充策略来缓解数据稀缺问题。基于这些偏好数据,我们将三种不同粒度的偏好对齐能力集成到 Reranker 中,实现 RAG 组件间的外部偏好对齐。此外,我们引入 LLM 自对齐任务,以消除 LLM 的知识偏差,实现内部对齐。

实验结果表明,DPA-RAG 在四个知识密集的 QA 数据集上都优于所有强大的基线方法。广泛的分析还为构建可靠的 RAG 系统提供了实用的见解。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


···


相关推荐

  • 快速“水”论文必备:82个即插即用涨点模块!
  • 海外LLM高质量数据集免费送
  • AI时代:企业如何抓住人工智能的黄金机遇?
  • Apache SeaTunnel——OLAP 引擎的数据动脉
  • 数据中心疯狂扩张!谷歌的温室气体排放量在五年内激增48%
  • WOT全球技术创新大会2024优秀出品人&优秀讲师评选揭晓
  • 史上最大规模的被盗密码库流入黑市!近100亿凭证信息让撞库攻击风险飙升
  • 深度解析RAG大模型知识冲突,清华西湖大学港中文联合发布
  • 人人可做提示工程师!Claude上新:一键生成、测试和评估prompt
  • 单一作者论文,谷歌提出百万专家Mixture,超越密集前馈、稀疏MoE
  • WAIC观察:隐私计算加速落地产业,全新的技术标准体系呼之欲出
  • 藏身幕后的巨人,正将工业AI带入下一阶段
  • DeepMind新方法:训练时间减少13倍,算力降低90%
  • Claude编程支持一键共享,第一批网友已经开始晒作品了
  • ControlNet作者新项目爆火:仅一张图生成25秒绘画全过程!不到一天GitHub揽星600+
  • 小米第三款车信息曝光。
  • 实习期间创下 Transformer,Gomez:当年整个 AI 圈都无法预见我们今天的高度
  • 突然曝光!近百名研究生涉嫌伪造学历......
  • 淘汰旧版 PHP,AWS 开始行动!
  • 史上开发最久的游戏!耗时 22 年,5 名打工人凑了几百欧就开工,只剩 1 人坚守到发布