©PaperWeekly 原创 · 作者 | 王正阳
单位 | 北京邮电大学研究方向 | LLM知识编辑论文标题:
Knowledge Editing on Black-box Large Language Models论文链接:https://arxiv.org/abs/2402.08631
简介
知识编辑(KE)旨在高效且精确地修改大型语言模型(LLM)的行为,更新特定知识而不对其他知识产生负面影响。当下的知识编辑研究主要集中于对白盒 LLM 的知识编辑研究,忽视了对黑盒 LLM(比如 ChatGPT)的研究,其中 LLM 除了文本输出什么都不可访问。针对现有的基于编辑前后 Logits 变化的主流评估框架无法应用于黑盒 LLM 的问题,本文首先提出了一个全面的评估框架。除了传统对于编辑知识的评估,该框架首次纳入编辑前后风格一致性保持并从文本和语义多个角度评估。为了解决现有适用于黑盒 LLM 的 KE 方法存在的编辑数据隐私泄露和风格过编辑问题,本文提出了一种后处理方法 postEdit。一方面,后处理机制允许将 postEdit 作为后置插件部署在下游端,从而保护编辑数据的隐私;另一方面,一个被称为 post-editor 的专家模型,以编辑知识为指导,对 LLM 的原始回复进行细粒度修改,从而有效地保持了原有的输出风格。对两个基准测试的实验和分析表明,postEdit 的性能优于所有基线,并实现了很强的泛化能力,尤其是在风格保持方面有了巨大的改进。一些基于外部 memory 的方法可以应用于黑盒 LLM 编辑场景。其中,SERAC 在 query 被分类为 INS 时利用一个替代模型生成编辑后的响应。IKE 通过演示示例和上下文学习让 LLM 学习辨别是否需要编辑和学习如何进行编辑。
然而,这些方法面临了两个关键缺陷:1)编辑数据的隐私泄漏。IKE 从演示库和编辑 memory 中检索数据输入到 LLM,不可避免地向上游 LLM 泄露了下游私人编辑数据;2)风格过编辑,即编辑后的语句风格和编辑前发生了巨大的变化。具体来说,SERAC 中不同型号和尺度导致代理模型和主 LLM 之间的风格差异,而 LLM 对提示和演示样例的敏感性导致 IKE 中的过度编辑。
一个理想的黑盒编辑方法应保留下游数据隐私的前提下,同时实现值得称赞的编辑性能和风格保持。其中 是一个引入的特殊 token 代表“不编辑”, 是一个人为设计的编辑模板。为了进一步提高增强数据的质量并减轻训练负担,我们对 GPT-4 增强获得的编辑后输出进行评估和过滤。我们对 使用 TE 和 SE 的联合评估并丢弃质量较差的增强样本。再获得了增强的训练集 后,我们 SFT 一个生成式语言模型(主实验为 LLaMA2-7B)得到 post-editor,形式化如下:3.2.2 postEdit的工作流程对于用户的 query,我们首先通过上游的 LLM 接口获得 LLM 的原始响应。在下游端,检索器根据原始响应从 memory 中召回最相似的编辑,之后我们将所有信息按照编辑模板 填充并传递给 post-editor。如果 post-editor 输出,则最终输出原始响应;否则最终输出为 post-editor 的输出。
4.2 分析实验post-editor 的泛化性:我们使用 ChatGPT 作为基础 LLM,CounterFact 作为训练集或演示库进行微调之后,在不重新训练的情况下在不同的基础 LLMs 和数据集上进行测试,结果如下:
案例研究:为了直观地展示 postEdit 和基线的编辑和样式的保留,我们在下表中进行了案例研究。
消融实验:为了理解 postEdit 中每个组件和训练数据类型的作用,我们进行了消融实验,结果如下:
Post-editor 的 Scale 研究:随着 post-editor 规模的增加,Editing 分数逐渐提高,而 Retention 分数在达到 1.3B 后保持稳定,这表明较大尺度的 post-editor 可以在保持高 Retention 分数的同时提高编辑性能。此外,像 ChatGPT 这样的 LLMs 在执行编辑任务方面并不擅长,小型 post-editor 可以实现令人满意的性能和高效率。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧