本文入选顶会IJCAI2024,京东技术团队联合清华大学提出缓解大模型“幻觉”新技术!
ChatGPT的横空出世标志着人工智能正式进入大模型时代,大模型也正逐步成为推动企业发展的新引擎。然而,大模型带来无与伦比创造力的同时,其“幻觉”,即“胡说八道”的坏毛病也让大批应用者苦不堪言。业内主要通过检索增强生成(RAG)技术,通过引入并检索第三方知识库缓解幻觉。但即便召回正确的信息,大模型依然可能因为自身幻觉生成错误结果,所以缓解大模型本身的幻觉也极其重要。
京东技术团队联合清华大学提出任务感知解码技术(Task-aware Decoding,TaD),通过对比有监督微调前后的输出,缓解LLM本身的幻觉;该方法通用性强,即插即用适应多种大模型结构、微调方法、下游任务。与此同时,项目团队在知识问答业务上进行落地实践,充分证明TaD+RAG是缓解LLM幻觉的最佳组合疗法。欢迎关注转发~
图1. RAG架构图 RAG借助信息检索,引入第三方事实知识,大大缓解了单纯依靠LLM生成答案而产生的幻觉,但由LLM生成的最终输出仍然有较大概率产生幻觉。因此,缓解LLM本身的幻觉,对整个RAG意义重大。
图2. DoLa示意图 上图2是DoLa的一个简单直观的示例。“Seattle”在所有层上都保持着很高的概率,可能仅仅因为它是一个从语法角度上讲比较合理的答案。当上层通过层对比解码注入更多的事实知识后,正确答案“Olympia”的概率会增加。可见,层对比解码(DoLa)技术可以揭示真正的答案,更好地解码出LLM中的事实知识,而无需检索外部知识或进行额外微调。此外,DoLa还有动态层选择策略,保证最上层和中间层的输出差别尽可能大。 可见,DoLa的核心思想是淡化下层语言/语法知识,尽可能放大事实性知识,但这可能导致生成内容存在语法问题;在实验中还发现DoLa会倾向于生成重复的句子,尤其是长上下文推理场景。此外,DoLa不适用有监督微调,限制了LLM的微调优化。03 数据存储的目录结构 通过以上分析,RAG无疑是治疗LLM幻觉的一副妙方,它如同LLM的一个强大的外挂,让其在处理事实性问题时如虎添翼。但RAG的最终输出仍然由LLM生成,缓解LLM本身的幻觉也极为重要,而目前业内针对LLM本身幻觉的技术方案存在成本高、实用落地难、易引入潜在风险等问题。 鉴于此,京东零售联合清华大学进行相关探索,提出任务感知解码(Task-aware Decoding,简称TaD)技术[12](成果收录于IJCAI2024),可即插即用地应用到任何LLM上,通过对比有监督微调前后的输出,缓解LLM本身的幻觉。该方法通用性强,在多种不同LLM结构、微调方法、下游任务和数据集上均有效,具有广泛的适用场景。任务感知解码(TaD)技术 关于LLM知识获取机制的一些研究表明,LLM的输出并不能总是准确反映它们所拥有的知识,即使一个模型输出错误,它仍然可能拥有正确的知识[13]。此项工作主要探索LLM在保留预训练学到的公共知识的同时,如何更好地利用微调过程中习得的下游任务特定领域知识,进而提升其在具体任务中的效果,缓解LLM幻觉。 TaD的基本原理如图3所示。微调前LLM和微调后LLM的输出词均为“engage”,但深入探究不难发现其相应的预测概率分布发生了明显的改变,这反映了LLM在微调期间试图将其固有知识尽可能地适应下游任务的特定领域知识。具体而言,经过微调,更加符合用户输入要求(“专业的”)的词“catalyze”的预测概率明显增加,而更通用的反映预训练过程习得的知识却不能更好满足下游任务用户需求的词“engage”的预测概率有所降低。TaD巧妙利用微调后LLM与微调前LLM的输出概率分布的差异来构建知识向量,得到更贴切的输出词“catalyze”,进而增强LLM的输出质量,使其更符合下游任务偏好,改善幻觉。
图3. TaD原理图知识向量 为了直观理解LLM在微调阶段学习到的特定领域知识,我们引入知识向量的概念,具体如图4所示。微调前LLM的输出条件概率分布为pθ,微调后LLM的输出条件概率分布为 pϕ。知识向量反映了微调前后LLM输出词的条件概率分布变化,也代表着LLM的能力从公共知识到下游特定领域知识的适应。基于TaD技术构建的知识向量可强化LLM微调过程中习得的领域特定知识,进一步改善LLM幻觉。
图4. 知识向量 特别地,当微调数据较少时,LLM的输出条件概率分布远远达不到最终训练目标。在此情形下,TaD技术增强后的知识向量可以加强知识对下游任务的适应,在训练数据稀缺场景下带来更显著的效果提升。实验结果 1)针对不同的LLM,采用LoRA、AdapterP等方式、在不同的任务上进行微调,实验结果如下表1和表2所示。注意到,TaD技术均取得了明显的正向效果提升。
表1. Multiple Choices和CBQA任务结果表2. 更具挑战性的推理任务结果 2)相比较其他对比解码技术,TaD技术在绝大部分场景下效果占优,具体如表3所示。需要特别强调的一点是,其他技术可能会导致LLM效果下降,TaD未表现上述风险。
表3. 不同对比解码技术结果
3)针对不同比例的训练样本进行实验,发现一个非常有趣的结果:训练样本越少,TaD技术带来的收益越大,具体如表4所示。因此,即使在有限的训练数据下,TaD技术也可以将LLM引导到正确的方向。由此可见,TaD技术能够在一定程度上突破训练数据有限情形下LLM的效果限制。表4. 不同数据比例下的结果 可见,TaD可以即插即用,适用于不同LLM、不同微调方法、不同下游任务,突破了训练数据有限的瓶颈,是一项实用且易用的改善LLM自身幻觉的技术。04 落地案例 自从以ChatGPT为代表的LLM诞生之后,针对其应用的探索一直如火如荼,然而其幻觉已然成为限制落地的最大缺陷。综上分析,目前检索增强生成(RAG)+低幻觉的LLM是缓解LLM幻觉的最佳组合疗法。在京东通用知识问答系统的构建中,我们通过TaD技术实现低幻觉的LLM,系统层面基于RAG注入自有事实性知识,具体方案如图5所示,最大程度缓解了LLM的生成幻觉。
图5. TaD+RAG的知识问答系统 目前知识问答系统已经接入京东6000+业务场景,为用户提供准确、高效、便捷的知识性问答,大大节省了运营、运维等人力开销。05 思考与展望 如果LLM依然按照语言模型的模式发展,那么其幻觉就无法彻底消除。目前业内还没有一种超脱语言模型范畴,且可以高效完成自然语言相关的任务新的模型结构。因此,缓解LLM的生成幻觉,仍然是未来一段时期的探索路径。以下是我们在系统、知识、LLM三个层面的一些简单的思考,希望能够抛砖引玉。系统层面——RAG+Agent+More的复杂系统 RAG技术确实在一些常见的自然语言处理任务中发挥出色的作用,尤其是针对简单问题和小型文档集。但是遇到一些复杂的问题和大型文档集时,RAG技术就显得力不从心。近期有一些研究认为RAG+Agent才是未来的趋势[14],Agent能够辅助理解并规划复杂的任务。我们认为可能未来的系统可能不仅仅局限于Agent和RAG,可能还要需要多种多样的内外工具调用、长短期记忆模块、自我学习模块......知识层面——与LLM深度融合的注入方式 任何一个深度模型都会存在知识边界的问题,LLM也不例外。RAG通过检索的方式召回外部知识,以Prompt的形式送入LLM进行最终的理解和生成,一定程度上缓解LLM知识边界问题。但是这种知识注入的方式和LLM生成的过程是相对割裂的。即便已经召回了正确的知识,LLM也可能因为本身知识边界问题生成错误的回答。因此探索如何实现外部知识和LLM推理的深度融合,或许是未来的一个重要的课题。LLM层面——低幻觉LLM LLM本身的幻觉是问题的根本和瓶颈,我们认为随着LLM更广泛的应用,类似TaD可缓解LLM本身幻觉的探索一定会成为业内的更大的研究热点。06 结语 缓解LLM幻觉一定是个复杂的系统问题,我们可以综合不同的技术方案、从多个层级协同去降低LLM的幻觉。虽然现有方案无法保证从根本上解决幻觉,但随着不断探索,我们坚信业内终将找到限制LLM幻觉的更有效的方案,也期待届时LLM相关应用的再次爆发式增长。 京东一直走在AI技术探索的前沿,随着公司在AI领域的不断投入和持续深耕,我们相信京东必将产出更多先进实用的技术成果,为行业乃至整个社会带来深远持久的影响。07 参考文献 [1] Hallucination is Inevitable: An Innate Limitation of Large Language Models[2] A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions[3] Unveiling the Causes of LLM Hallucination and Overcoming LLM Hallucination[4] Editing Large Language Models: Problems, Methods, and Opportunities[5] ACL 2023 Tutorial: Retrieval-based Language Models and Applications[6] Theoretical Limitations of Self-Attention in Neural Sequence Models[7] Sequence level training with recurrent neural networks.[8] Discovering language model behaviors with model-written evaluations[9] Dola: Decoding by contrasting layers improves factuality in large language models[10] Bert rediscovers the classical nlp pipeline[11] Retrieval-Augmented Generation for Large Language Models: A Survey[12] TaD: A Plug-and-Play Task-Aware Decoding Method toBetter Adapt LLM on Downstream Tasks[13] Inference-time intervention: Eliciting truthful answers from a language model[14] Beyond RAG: Building Advanced Context-Augmented LLM Applications
- END -