代码模型自我进化超越GPT-4o蒸馏!UIUC伯克利等提出自对齐方法 | NIPS 2024
新智元报道
编辑:alan
【新智元导读】代码模型可以自己进化,利用自身生成的数据来进行指令调优,效果超越GPT-4o直接蒸馏!
LLM作为智能的基座,可以衍生出各种能力。
代码能力就是其中一种:程序补全、注释、优化、修bug、测试等等。
而想要充分发挥LLM的巨大潜力,指令调优(Instruction Tuning)是至关重要的一步。
当前,高质量指令数据主要有两个来源:人工注释和蒸馏。
前者很贵,后者则受到限制。于是,人们开始另辟蹊径。
近日,来自UIUC、伯克利等机构的研究人员提出了SelfCodeAlign。
这篇工作首次证明了,可以通过自对齐(Self-Alignment)来获得强大的代码模型,不需要人工注释或者蒸馏,而且效果更好!
论文地址:https://arxiv.org/pdf/2410.24198
SelfCodeAlign在整个数据生成过程中,使用相同的基础模型进行推理,分为三步:
首先,从高质量的种子片段中提取不同的编码概念,以生成新任务。
然后,对每个任务的多个响应进行采样,将每个响应与测试用例配对,并在沙盒环境中对其进行验证。
最后,选择验证通过的示例来进行指令调优。
SelfCodeAlign是第一个完全透明的pipeline,使用纯自生成的指令数据对基础代码模型进行自对齐。
实验表明,使用SelfCodeAlign对CodeQwen1.5-7B进行指令微调,在HumanEval+上实现了67.1 pass@1,超过了参数量大10倍的CodeLlama-70B-Instruct。
在全部的三项基准测试(代码生成、数据科学编程、代码编辑)中,SelfCodeAlign都战胜了之前最先进的指令微调方法OctoPack。
此外,在HumanEval+上,SelfCodeAlign的性能超越了基于GPT-3.5-Turbo的蒸馏方法(包括 OSS-Instruct(61.6)和Evol-Instruct(59.1)),甚至打败了GPT-4o的直接输出蒸馏(65.9)!
这意味着,从模型自己的数据分布对齐中学习,可能胜于使用强大的teacher模型。
SelfCodeAlign适用于各种规模(从3B到33B)的LLM,比如StarCoder2-Struct就是以此为基础创建的(base model为StarCoder2-15B)。
自对齐代码生成
下图以StarCoder2-15B的指令调优过程为例,展示了SelfCodeAlign的流程:
种子选择
SelfCodeAlign首先从The Stack V1中收集一组种子代码片段。
此步骤中,确保种子片段多样化且高质量至关重要,它们将用作生成说明和响应的起点。
为了收集种子片段,研究人员从The Stack V1中提取所有带有文档字符串的Python函数,然后应用一系列过滤规则来确保种子片段的质量。
通过运行Pyright类型检查器、删除基准项、过滤掉文档质量差的函数,以及删除几乎重复的函数,总共从5M个函数中过滤出250k个Python函数。
概念生成
收集种子函数后,开始执行Self-OSS-Instruct,对OSS-Instruct的自对齐进行修改,以生成不同的指令。
具体来说,这里采用上下文学习(In-context learning)让基础模型从给定的种子代码片段中自行生成指令。
作者使用了21个精心设计的示例来教模型如何工作:
指令生成过程分为以下两个步骤:
概念提取:对于每个种子函数,提示基本模型生成函数中存在的代码概念列表。代码概念是指编程中使用的基本原则和技术,例如模式匹配和数据类型转换。
指令生成:提示基本模型根据已识别的代码概念和两个附加属性(难度和类别)自生成编码任务,随机抽样以丰富生成指令的多样性。
执行筛选
根据Self-OSS-Struct生成的指令,下一步是将每条指令与高质量teacher模型(比如GPT-4)相匹配。
不过,很多强大的商业模型不允许用蒸馏来做这种事,而且,teacher模型也不一定就更加厉害,毕竟老师也会犯错误,这时就会起到负作用。
作者建议,明确指示模型在产生与自然语言交错的响应后,生成用于自我验证的测试来自对齐基本模型。
具体来说,对于每个指令,基本模型对格式的多个输出(响应、测试)进行采样,然后过滤掉那些在沙箱环境中测试失败的响应。然后,为每个指令随机选择一个验证通过的响应,应用于最终的指令微调数据集。
实验评估
本文全面评估了SelfCodeAlign在各种编码任务中的表现,包括:
函数级代码生成
公平起见,比较对象为类似规模的最先进的开源模型,基准测试选择LiveCodeBench。
LiveCodeBench是无污染评估的基准,包含2023年5月至2024年2月期间的400项最新Python算法挑战。这些任务来自Codeforce和LeetCode等网站,每个网站平均有20多个测试用例。
上表报告了在3个特定开始日期之后创建的问题的测试结果(pass@1)。SelfCodeAlign-CQ-7B的性能始终优于大多数基线模型。
此外,将开始日期向前移动对SelfCodeAlign-CQ-7B的影响很小,这表明模型不太可能受到污染。
类级代码生成
这里使用ClassEval评估类级代码生成的能力,ClassEval是100个类级Python代码生成任务的集合,涵盖100个类和410个方法,平均每个类33个测试,每个方法有8个测试。
作者将最大上下文大小设置为2048个token,测试了三种生成策略中每个模型的最佳类级pass@1(以及相应的方法级pass@1):
上表中的类级pass@1需要同时生成正确的类和方法,而方法级pass@1仅检查生成的方法是否能通过方法级测试。
上表的结果显示,就类级性能而言,SelfCodeAlign-CQ-7B是表现最好的,不论是相比于开源指令微调模型,还是使用未知或专有指令微调数据的模型。
数据科学
DS-1000包含7个流行的Python数据科学库中1000个现实数据科学挑战。在这个基准测试中,模型必须完成部分代码片段才能解决问题。
上表显示,尽管SelfCodeAlign-CQ-7B只使用了有限的数据科学代码进行训练,但在与一众模型的比较中仍然表现出色。
代码编辑
代码编辑任务选用CanItEdit作为基准测试,该基准测试由三种类型的210个代码编辑任务(每种类型70个任务)组成:纠正(修复错误)、自适应(添加新功能)和完善(改进现有功能)。
对于每个任务,模型需要以原始代码片段和描述所需代码更改的自然语言指令作为输入,生成满足指令的代码片段。遵循原始基准测试中的设置,在0.2的温度下为每个任务进行20次测试。
上表报告了每种类型的pass@1以及所有任务的平均成绩。尽管没有专门针对代码编辑进行调优,但SelfCodeAlign-CQ-7B在CanItEdit上表现出强大的性能,实现了39.0%的pass@1,优于除CodeQwen1.5-Chat以外的所有模型。
参考资料:
https://x.com/YuxiangWei9/status/1852421529897972207