老外整了个领先的幻觉检测模型Lynx

夕小瑶科技说 原创
作者 | 谷雨龙泽

大家想必都知道,AI用着用着就容易“胡言乱语”,我们把这种现象叫做“AI幻觉”。

简单来说,幻觉就是当AI模型在生成内容或回答问题时,可能会“编造”一些并不真实或不符合事实的信息。这些编造的信息看起来可能很合理,但实际上它们要么是错误的,要么是与现实情况不符的。它会让人误以为AI模型无所不知,但实际上它可能只是基于一些不完整的或错误的信息来生成内容的。

笔者在日常使用AI的时候,也深受其幻觉问题影响。前不久,笔者发现来自一群来自Patronus AI、 Contextual AI和斯坦福大学的老外整了个“遥遥领先”的幻觉检测模型,号曰“Lynx”。

论文标题:
Lynx: An Open Source Hallucination Evaluation Model

论文链接:
https://arxiv.org/abs/2407.08488

什么是Lynx?

Lynx是一种开源的幻觉检测大型语言模型(LLM),Lynx旨在减轻检索增强生成(RAG)技术中的幻觉问题。

▲ChatGPT、Claude和Lynx对于同一个问题的回答

Lynx是怎样“炼成”的?

1.数据集构建

  • 数据来源:研究团队从多个现有的问答(QA)数据集中抽取样本,包括CovidQA、PubMedQA、DROP和FinanceBench等。
  • 样本数量:训练数据集由2400个样本组成,其中800个样本用于验证。对于每个子任务,他们从源数据集的训练部分中抽取了600个示例,其中300个被扰动以生成看似合理但不忠实于上下文的幻觉答案。

2.数据扰动

为了训练Lynx以识别并避免幻觉答案,研究团队通过引入扰动来生成一些幻觉答案。这些幻觉答案在表面上看起来合理,但实际上并不符合问题的真实上下文。

▲研究者设置的一些幻觉答案

3.模型微调

  • 基础模型:Lynx是在Llama-3-70B-Instruct模型的基础上进行微调的。Llama-3-70B-Instruct是一个具备指令遵循能力的大语言模型。
  • 微调过程:研究团队利用上述构建的数据集对Llama-3-70B-Instruct进行微调,特别关注硬检测幻觉的情况。

4.推理能力蒸馏

为了提高模型的零样本性能,研究团队采用了Chain of Thought(CoT)技术。他们使用GPT-4o生成训练集中每个示例的标签对应的推理过程,并将这些推理过程作为助手响应的一部分,在指令调优过程中提供。

5.训练配置

  • 混合精度训练:采用混合精度训练以加速训练过程,同时使用flash attention。
  • 优化器:使用AdamW优化器,其中,并启用梯度裁剪,阈值为1.0。
  • 调度器:使用带有预热步骤的余弦调度器,预热步骤设置为100。
  • 硬件配置:对于评估70B模型,研究团队使用vLLM在8个H100 GPU上进行,设置了tensor_parallel = 8。对于评估8B变体,则使用模型和数据分片技术。

6.推理生成

使用Hugging Face pipelines进行生成,采用贪婪解码方式,最大新标记数设置为600。

Lynx有多厉害?

为了评估Lynx,研究者们提出了一个全面的幻觉评估基准HaluBench,该基准包含了来自不同现实世界领域的15,000个样本。

实验结果显示,Lynx在HaluBench上的表现优于GPT-4o、Claude-3-Sonnet等其他LLM模型。Lynx、HaluBench以及相关的评估代码已被公开发布,供公众使用。

测试发现,Lynx(70B)在所有评估任务中的准确率最高,平均比GPT-4o高出近1%。

在特定领域如PubMedQA的医疗答案准确性识别中,Lynx(70B)比GPT-4o高出了8.3%。

此外,Lynx(8 B)和Lynx(70B)都比基础的Llama 3模型在所有任务上表现出更高的准确性,其中70B的微调模型使准确率提高了7.8%。

在与封闭源代码模型的比较中,Lynx也显示出显著的优势,平均超出GPT-3.5-Turbo 27.6%的准确率。

在HaluBench基准测试中,Lynx(70B)的整体最佳表现为87.4%,而GPT-3.5-Turbo的准确率最低,平均只有58.7%。

▲测试结果,高下立判

目前研究的缺陷和未来的工作?

该研究的局限性主要在于三个方面:

  • 一是RAG系统中的失败情况,除了LLM生成的问题外,检索组件可能无法返回与查询相关的上下文,导致下游的幻觉生成。
  • 二是数据源的不一致性、预处理和后处理步骤的错误、以及包含冲突或误导信息的源文档,都对故障检测构成挑战,需要进一步的研究来解决。
  • 三是大部分数据集都是英文的,限制了其在多语种应用中的适用性。

未来的工作方向:

  • 扩展HaluBench以覆盖非英文和低资源语言
  • 将Lynx应用于更多的NLP领域,如抽象概括任务,检查LLM生成的摘要是否与源文档信息一致。
  • 将Lynx应用于自然语言推理任务,因为幻觉检测与NLI有密切关系,一个强大的幻觉检测模型可能在其他NLP领域也能进行有效的推理。
  • 评估模型的诚实性和事实性。

一点号外(夹带私货)

有意思的是,Lynx在英文里有“猞猁”的意思,这是一种敏捷的猫科动物,开发者起这个名字,是否也希望这个模型像猞猁一样又快又好地揪出幻觉错误来?

此外,玩过《明日方舟》的朋友应该知道里面有个角色叫凯尔希,是一只猞猁。在某次支线剧情之后,有这样的梗图流传:

好吧,还是希望这个“猞猁”向着“无所不知”的方向迈进!

相关推荐

  • 孟晚舟:不要选择和机器竞争的职业,萝卜无人车会是特洛伊木马吗?
  • 复旦教授:当初脑子一定被驴踢了,不然怎么会上这帮龟孙子的当
  • 成都周报 | 174亿最大重组案获批,首批未来产业天使子基金签约
  • 一家半导体研发商融了三个亿丨投融周报
  • 这几个Python效率工具非常好用~
  • 枪手射8发子弹!观众1死2伤!特朗普遭枪击事件细节披露
  • 聊一聊ES2024有啥新特性
  • 【文末赠书】大模型时代,如何用时间序列与机器学习解锁未来?
  • 招聘|Anytime AI-全栈开发工程师
  • 金融场景中的指标体系建设与应用
  • 7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单
  • Meta开发System 2蒸馏技术,Llama 2对话模型任务准确率接近100%
  • 数据匮乏仍是通用具身智能面前的高墙吗?
  • 非法阻止员工披露AI安全风险,OpenAI严厉「封口协议」再遭举报
  • 直击真实的甲方AGI需求,人工智能赋能产业融通发展论坛顺利召开
  • AI大模型有望再扩1000倍!剑桥耶鲁康奈尔:PNN是变革关键
  • AI机器人伴侣成美国老年人新宠!美国每年花70万刀,失去爱人的84岁老人重新笑了
  • 设计师+AI,3个月就能完成一套千字中文字库@智琮科技
  • 明年,每个人都能零基础创作3D内容 | 对话VAST宋亚宸
  • 自动驾驶雨天也能平稳规划,北理港中文腾讯提出端到端学习道路几何图形