复旦大学:没钱标数据的有福了!利用合成数据就能大幅提升大模型归纳推理能力

夕小瑶科技说 原创
作者 | 谢年年
推理,作为人类的基本认知过程,对于学习、问题解决和科学发现起着至关重要的作用。常见的推理方式包括演绎推理和归纳推理。

演绎推理就是从一般性的前提推导出个别或特殊情况的结论,而归纳推理则用于从具体实例中提炼出一般性的结论或规律

研究学者一直试图增强大模型的推理能力,但大部分训练数据的指令都偏向演绎推理,比如“解释一下这个代码是什么意思”或者“写一个程序找出列表中最大和最小的数”。

相比之下,那些要求从几个例子中推断出通用规则或函数关系的归纳推理任务,数据就稀缺多了。比如:“假设有:func(1) == 6 func(2) == 7 func(3) == 8 func(4) == 9给我解释一下这个函数”或者“给定输入与输出john Smith -> Smith, John;frank lee -> Lee, Frank;Laura Jane Jones -> Jones,Laura,请编写程序将输入转换为输出”。

这种数据不平衡让LLMs在归纳推理上学习困难,也缺乏有效评估其归纳能力的标准。为了填补这一空白,复旦大学发起了一项名为Case2Code的挑战,它模拟了现实工作中的一个常见场景:根据几个输入输出示例来编写代码。刷过题的朋友们对这套模式一定不陌生~

除此之外,本文还提出了一套高效获取大规模、多样化Case2Code训练数据的方法。使用1.3M规模的合成数据训练的7B小模型在Case2Code评估集上的准确率大幅提升,最高增幅达18.9%,甚至超越了LLaMA3-70B和GPT-3.5,且与GPT-4旗鼓相当

论文标题:
Case2Code: Learning Inductive Reasoning with Synthetic Data

论文链接
https://arxiv.org/pdf/2407.12504

代码链接
https://github.com/choosewhatulike/case2code

方法

本文首先构建了大规模的合成数据用于代码的归纳推理。合成数据生成框架旨在自动生成大规模且多样化的Case2Code数据。步骤如下图所示:

首先从大规模数据集中收集多样化的程序,并通过基于规则的过滤器进行筛选。接着利用LLM编写多样的示例输入,并通过代码解释器计算其对应的输出。最后根据输出筛选出低质量程序,并将获得的三元组(程序、输入、输出)转换为用于代码领域归纳推理的Case2Code数据。

简单来说就是根据已有的题解(程序)使用LLM编写输入输出示例,以获得包含(程序、输入、输出)三元组的Case2Code数据。

1. 收集程序

为增强数据的多样性与质量,作者从The Stack 中采样有效的Python函数程序。利用现成的抽象语法树(AST)解析工具解析The Stack中的每个文件,以获取Python函数。且必须满足(1)通过语法检查;(2)具有一个或多个输入参数和返回值;(3)不依赖于第三方包或外部I/O操作。过滤后通过代码解释器进行验证,从而轻松获取多样化的Case2Code数据。

2. 生成输入

作者提示LLMs为每个函数编写输入参数,下表是一个简单的示例:

为了生成合适的输入参数,LLM首先需要分析函数的实现,然后推断输入参数的可能类型和value范围,最后提出正确的输入参数。

作者表示,这一步并不需要LLMs拥有多强大的能力,一些小LLM也可以轻松完成,以低成本高效地扩展生成过程

3. 获得输出

作者利用代码解释器执行函数并处理输入,从而获取对应的输出。鉴于LLM生成的输入样例可能存在错误,当函数输出不因输入变化而变动(恒定输出或抛出异常)时,该函数被视为无效并被剔除。

同时,为避免生成的Case2Code数据超出LLM的上下文窗口限制,排除了那些产生异常冗长输出值的函数

但是不会过滤掉导致异常或运行时错误的输入,失败的调用尝试也可以为归纳推理提供有价值的信息,以重建函数。

4.后处理

最后将获得的函数及其对应的输入输出对转换为Case2Code风格的数据。具体而言,对于给定函数及其个测试用例,随机选择个示例作为观察集。生成的提示数据将帮助LLM在观察集上进行归纳推理,从而重建函数。转换后的训练示例如下表所示:

实验设置

合成数据规模

作者从The Stack预训练数据集中随机抽取了大约2.3万个函数,经过去重过滤,使用InternLM2-7b生成输入示例,python执行环境生成输出后,最终获得了1.3M包含输入-输出-函数三元组的高质量的数据集。然后保留了500个样本用于评估,其余的用于训练。

训练设置

为了展示我们训练数据的泛化性和有效性, 作者在即InternLM2-7B和LLaMA3-8B分别进行了三种变体的Case2Code 训练:直接微调、混合预训练和混合微调。

评估设置

评估基准使用HumanEval和MBPP评估训练后的LLM编码能力,并引入EvalPlus——这两个基准的扩展版本,包含大量额外测试案例,以确保评估的严格性。

对于非指令调优模型,在HumanEval和MBPP上分别应用了zero-shot提示和 four-shot提示进行测试。而对指令对齐的LLM,则统一采用zero-shot提示在所有基准上进行评估。

为了探究LLM在代码归纳推理方面的能力,还进一步测试了它们在Case2Code任务上的表现,同样采用zero-shot提示。

结果分析

zero-shot性能评估

作者汇总了不同代表性LLM在zero-shot Case2Code任务中的表现及其编程性能:

分析显示,这些模型在Case2Code任务中的表现与其程序合成能力紧密相关,在其他基准上获得高分的模型在Case2Code中同样表现出色,且规模较大的模型普遍优于小规模模型。这表明Case2Code是一个有效的基准,能够反映LLM的代码推理能力

但是普遍得分较低,也就是说大模型还没有达到根据示例编写完全准确代码的水平。这可能是因为,虽然大模型在训练时看了很多编写程序的例子,但它们接触到的像Case2Code这样需要通过观察行为来归纳程序的任务还比较少,类似于“逆诅咒”现象所揭示的规律。

Case2Code的泛化能力

合成数据的一个基本问题是它的泛化能力。因此,作者使用合成Case2Code数据集在不同的设置下训练不同的LLM,探索它如何影响LLM的代码推理学习。结果如下表所示:

直接微调

直接在Case2Code推理样本上训练的LLM能够高效地学习基于案例的编码方法。如上表所示,通过直接微调,Internlm2-7B和LLaMA3-8B在Case2Code评估集上的准确率分别提升至44.5%和42.0%,最高增幅达18.9%,这一表现甚至超越了LLaMA3-70B和GPT-3.5,且与GPT-4旗鼓相当

另外这些经Case2Code训练的模型在HumanEval和MBPP等基准测试中的程序合成能力也获得了提升,彰显了Case2Code推理的普遍适用性和挑战性。

通过Case2Code样本的训练,不仅能强化LLM的归纳推理能力,还能增强其代码理解和生成的整体水平。

在预训练阶段混合

在预训练阶段融入Case2Code数据,有效促进模型将执行状态与函数实现相联结,从而显著增强LLM的程序合成能力。

相较于仅在Case2Code数据集上微调,此策略能更广泛地迁移通过Case2Code任务习得的代码状态归纳推理能力,实现更好的泛化效果。

在指令微调阶段混合

在采用instruction-following数据集训练时,融入Case2Code数据显著增强了LLM在基于指令编程任务上的性能。

整合Case2Code数据后,各LLM在代码生成任务上的表现均有所提升。以InternLM2-7B为例,其在HumanEval上的准确率飙升超过10%,达到64.6%。同样,LLaMA3-8B在HumanEval、HumanEval+及MBPP上的准确率也分别提升至64.6%、57.9%和71.2%,较其SFT版本有明显进步。这充分证明了学习Case2Code数据的有效性,并凸显了在LLM训练中纳入归纳推理数据的重要性。

消融实验

提示的多样性

由于Case2Code训练数据源自(程序、输入、输出)三元组的转换,提示模板在构建过程中扮演关键角色。作者对比了单一模板与多模板风格提示下的合成数据效果。如下图所示:

尽管域内Case2Code性能受提示多样性影响较小,但LLM在域外程序合成任务上的准确性却显著提升,这揭示了多样性在LLM学习中的潜在关键作用。

用于生成输入的LLM的影响

在合成Case2Code数据时,核心环节之一是引导LLM为各程序创建多个输入样例。这些输入与程序共同执行后产生的输出,共同构成了构建训练数据的关键上下文。

为探究LLM生成输入示例的能力对数据质量的影响,作者将LLM从InternLM2-7B替换为更强大的LLaMA3-70B,并生成了规模减半的新数据集。两者的成本比较如下图所示:

使用这一版成本更高的Case2Code数据在InternLM2-7B上进行了指令微调测试。如下图所示:

LLaMA3-70B编写的输入样本质量更高,使得训练后的LLM在数据减少情况下仍展现出相当的代码推理能力。这凸显了输入生成步骤对数据质量的重要性,建议在资源允许时采用更强大的LLM。

然而低成本版本InternLM2-7B也达到了和LLaMA3-70B相当的效果,不失为一个性价比更高的选择!

模型规模

为了探究利用小模型合成的Case2Code数据是否依然能有效提升大模型的性能,并深入分析模型规模对学习过程的影响。作者采用InternLM2-7B生成的Case2Code数据,混合SFT数据集对不同大小的InternLM2系列模型进行了训练。实验结果如下表:

可以看到,无论学生模型规模如何,即便学生模型的规模几乎是数据合成模型的三倍,合成数据均显著增强了其代码推理能力,这一发现揭示了在大规模代码任务中,弱监督到强监督转换的可行性与潜力。

结论

作者构建了一个新的基准——Case2Code,用于评估LLMs在代码领域的归纳推理能力,并提出了一个数据合成框架,仅使用小型LLM和代码解释器就能自动高效地从预训练代码文本中收集高质量的Case2Code训练数据。通过在不同设置下训练各种LLM,本文证明了Case2Code不仅能提升LLM的归纳推理能力,还能提高其整体编码能力。我们可以期待,当人类生成的数据用尽时,合成的Case2Code能够持续为改进LLM生成高质量的数据~


相关推荐

  • ICML 2024十篇最佳论文开奖!贾扬清十年经典之作获时间检验奖
  • 开源Llama 3.1一夜成最强大模型!超越闭源GPT-4o,OpenAI坐不住了
  • 【第24讲】AI公文写作实战
  • 鹅厂同事“上岸”国家广电总局。从乙方“小兵”瞬间成了甲方“爸爸”
  • 用过 MySQL 读写分离吗?怎么用
  • 也曾找工作到崩溃,希望给大家一点慰藉!
  • 一下午连续故障两次,谁把我们接口堵死了?!
  • 清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
  • 从裸机到700亿参数大模型,这里有份教程,还有现成可用的脚本
  • 数学大统一理论里程碑进展:几何朗兰兹猜想获证明,论文超800页
  • 击败GPT-4o的开源模型如何炼成?关于Llama 3.1 405B,Meta都写在这篇论文里了
  • Llama成大模型顶流,扎克伯格掀论战:玩开源,时代变了
  • 资料下载:新一代日志存储与分析解决方案
  • 从1到N,标签系统运营常见问题全解析
  • 新一代实时数仓:阿里云数据库 SelectDB 版--100% 兼容 Apache Doris 的全托管云原生实时数仓
  • 如何使用JavaScript获取百分比宽度元素的像素宽度
  • 简单的聊一聊 JavaScript 原型与原型链
  • 博士申请 | 香港理工大学李恒云教授招收大数据/机器学习全奖博士/博后/RA
  • 大模型中文内容安全评测发布,幻方DeepSeek-67B模型夺魁,谷歌7B模型表现亮眼
  • ACM MM 2024 | 揭示文生图扩散模型的结构级记忆,提升成员推理攻击成功率