性能强劲又通用!Meta-CoT: 混合问题场景下的自适应思维链推理


©PaperWeekly 原创 · 作者 | 邹安妮单位 | 上海交通大学研究方向 |NLP,大模型推理

大语言模型(LLMs)通过思维链(CoT)提示技术,生成中间推理链作为得出答案的依据。然而,当前的 CoT 方法要么采用简单的通用提示(例如“让我们一步一步思考”),要么依赖人工制定且任务特定的样本示例来获得更好的性能,从而在性能通用性之间产生了巨大的鸿沟。为了弥补这一鸿沟,本文提出了 Meta-CoT:一种在输入问题类型未知的混合任务场景中可通用的思维链提示方法。


论文标题:

Meta-CoT: Generalizable Chain-of-Thought Prompting in Mixed-task Scenarios with Large Language Models

论文链接:

https://arxiv.org/pdf/2310.06692.pdf

代码链接:

https://github.com/Anni-Zou/Meta-CoT



引言


大语言模型(LLMs)凭借思维链(CoT)提示在复杂推理方面表现出了优越的能力。CoT 提示需要生成中间推理链,作为得出答案之前的基本依据。目前的 CoT 提示方法主要分为两类,我们分别称为 General Zero-Shot-CoTSpecific Few-Shot-CoT。前者利用“让我们一步一步思考”等一般性提示,将其直接附加到输入问题中,旨在唤醒 LLMs 的逐步推理潜力;后者提供特定于任务的输入输出对作为样本示例,并将它们放在输入问题之前,目的是引导 LLMs 通过模仿学习样本示例来进行多步推理。

然而,当前研究主要存在两个局限性:1)General Zero-Shot-CoT 由于不需要任何与任务相关的样本而具有良好的泛化能力,但与 few-shot 模式相比,它在性能方面往往相形见绌;2)Specific Few-Shot-CoT 严重依赖于任务特定的样本示例来获得优越性能,但无法提供良好的泛化能力。
在实际应用中,LLMs 通常不知道用户会输入什么样的问题(区别于现有的针对每个特定任务的测试集进行测试的情况),因而难以为每种类型的问题预先准备上下文提示。因此,研究自动适用于各种类型问题的提示技术具有重要意义。
为了弥合性能通用性之间的差距并提高 CoT 提示技术在实际场景中的应用价值,本文提出 Meta-CoT:一种在输入问题类型未知的混合任务场景中可通用的思维链提示方法。Meta-CoT 不仅在 10 项推理任务上取得出色的性能,而且具有卓越的泛化能力。其在 SVAMP(93.7%)上取得了最先进的结果,而无需任何额外的程序辅助方法。


方法


Meta-CoT 由三个阶段组成:

1. 场景识别(Scenario Identification):利用现成公开的推理数据集,根据<类别,形式>的划分策略获得含多个数据组的混合问题池,随后从每个数据组中随机采样一个问题,组合之后将其作为上下文样本示例,用以辅助 LLMs 对输入问题进行自动场景分类;

2. 样例选择(Demonstration Selection):根据阶段(1)得到的场景,通过对问题进行编码和聚类的方法,从相应的场景数据池中获得最具代表性的问题,从而构建多样化样例;

3. 答案推导(Answer Derivation):使用阶段(2)获取的多样化样例对输入问题执行最终答案推导。





实验结果


我们对 10 个分布内推理任务进行了实验,涵盖算术推理、常识推理和符号推理。此外,我们还在 5 个分布外数据集上验证了 Meta-CoT 的稳定性和泛化性:
1. Meta-CoT 在 SVAMP 上实现了无需任何额外的程序辅助方法的最优结果 (93.7%)。 此外,即使缺乏来自 GSM8K 数据集的上下文示例,Meta-CoT 在 GSM8K 上也能达到优越的性能 (93.6%)。

2. Meta-CoT 在保持良好稳定性的同时,还能实现不错的性能。这些结果证明,Meta-CoT 适用于输入数据没有特定类型定义的实际情况,具备良好的实际应用价值。 


3. 为了进一步探讨在实现通用性中起着关键作用的场景识别(scenario identification)阶段的效果,我们去除了这个阶段,并采用一种理想化的策略:即假设模型被赋予了正确场景。结果表明,即使给出正确的场景,也只能实现细微的改进 (70.2% → 70.6%)。这表明 Meta-CoT 潜在激发了 LLMs 在无需人工干预下的自我决策能力。






本文总结


在这项工作中,我们首先提出了一个具有重要应用价值的新场景,即输入问题类型未知的混合任务场景。在这一具有挑战性的场景下,我们提出了可通用的思维链提示方法:Meta-CoT。在 15 个分布内和分布外推理数据集上的结果表明,Meta-CoT 在达到优越性能的同时还享有良好的泛化能力。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


··

相关推荐

  • 更大更强!有请智源 Uni3D 视觉大模型,从「最强2D」升维「最强3D」
  • 神器!三行Python代码轻松提取PDF表格数据
  • 如何优化PyTorch模型训练?
  • 度小满自动机器学习平台实践
  • 智能化数据平台实践
  • 复旦大学联合华为诺亚提出VidRD框架,实现迭代式的高质量视频生成
  • 获1000万美元捐款,用于代码重构、上云,论文预印版平台arXiv「好起来了」
  • 专访MIT贾皓钧&段辰儒博士:AI4S时代的化学材料发现——「AI炼金术」
  • 在RTX 4090被限制的时代下,让大模型使用RLHF更高效的方法来了
  • OpenAI终于Open一回:DALL-E 3论文公布、上线ChatGPT,作者一半是华人
  • 清华版「AutoGPT」登GitHub热榜!复杂任务轻松搞定,还能自己训练模型
  • 提示工程夭折?MIT斯坦福让大模型主动提问,自己搞明白你想要什么
  • arXiv可算有钱搞服务器了:新获1000万美元捐款,正在线火热招人
  • 清华系百亿估值大模型公司自曝:年内已融资25亿!
  • DALL·E 3关键技术公开!19页论文揭秘如何对提示词“唯命是从”
  • 没绷住,vivo提前“泄密”大模型能力
  • 分了 100 万。
  • 还原现场前端录制用户行为技术方案
  • 大厂为啥都要用Node去写中间层(BFF)呢?
  • 2023年轻型创业项目,旅游卡代理,别人旅游,你拿佣金