新算法:让大型语言模型协作更智能高效!

您是否曾被问到一个您只知道部分答案的问题?

为了给出更明智的回答,您最好的做法是给在该主题上知识更丰富的朋友打电话。

然而,一直以来,教导 LLM 识别何时应与另一个模型在答案方面进行协作都很困难。

麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员并非使用复杂的公式或大量标记数据来阐明模型应在何处协同工作,而是设想出了一种更有机的方法。

当通用基础 LLM 生成答案时,Co-LLM 会审查其响应中的每个单词(或标记),查看从专家模型调用更准确答案的位置。

这个过程使得对诸如医疗提示、数学和推理问题等的回复更加准确。

为了确定基础模型何时需要专家模型的帮助,该框架运用机器学习来训练一个“切换变量”,即一种能够指示两个 LLM 响应中每个单词能力的工具。

该切换就如同一个项目经理,找到应当调用专家的区域。

例如,如果您让 Co-LLM 列举一些已灭绝熊类物种的例子,两个模型会一起起草答案。

通用 LLM 开始拼凑回复,切换变量在能够从专家模型中插入更好标记的部分进行干预,比如添加熊类物种灭绝的年份。

“借助 Co-LLM,我们实际上是在训练一个通用的 LLM,使其在需要时能够‘联系’专家模型,”麻省理工学院电气工程和计算机科学专业的博士生、CSAIL 附属成员香农·沈(Shannon Shen)说道,他是一篇关于该方法的新论文的主要作者。研究结果已在 发布于 arXiv 预印本服务器。

“我们使用特定领域的数据来教导基础模型了解其对应模型在生物医学任务、数学和推理问题等领域的专业知识。这个过程会自动找出基础模型难以生成的数据部分,然后指示基础模型切换至专家 LLM,该专家 LLM 是在类似领域的数据上进行预训练的。通用模型提供‘支架’生成,当它调用专业 LLM 时,它会提示专家生成所需的标记。我们的研究结果表明,LLM 会自然而然地学习协作模式,就像人类知道何时求助专家来填补空白一样。”

想象一下,让一个通用的 LLM 说出一种特定处方药的成分。它可能会答错,这就需要专业模型的专业知识了。

为了展示 Co-LLM 的灵活性,研究人员使用了诸如 BioASQ 医疗数据集之类的数据,把基础 LLM 与不同领域的专家 LLM(比如 Meditron 模型)相结合。这使得该算法能够帮助回答生物医学专家通常会收到的询问,例如说出导致特定疾病的机制。

例如,如果您仅要求一个简单的大型语言模型说出特定处方药的成分,它可能会答错。借助专门研究生物医学数据的模型所具备的专业知识,您会得到更准确的答案。协同大型语言模型还会提醒用户在哪里复查答案。

协同大型语言模型性能提升的另一个例子:当承担解决像“a3 · a2,如果 a=5”这样的数学问题时,通用模型错误地计算答案为 125。由于协同大型语言模型促使该模型与一个称为 Llemma 的大型数学大型语言模型进行更多协作,它们一起确定正确的解决方案是 3,125。

协同大型语言模型给出的回答比经过微调的简单大型语言模型以及独立工作且未经调整的专业模型更准确。协同大型语言模型可以指导两个训练方式不同的模型一起工作,而其他有效的大型语言模型协作方法,如“代理调整”,需要其所有组件模型以类似的方式进行训练。此外,这个基线要求每个模型同时用于生成答案,而麻省理工学院的算法只是针对特定标记激活其专家模型,进而实现更高效的生成。

麻省理工学院研究人员的算法强调,更紧密地模仿人类团队合作可以提高多大型语言模型协作的准确性。为了进一步提高其事实的准确性,团队可能会借鉴人类的自我纠正方式。他们正在考虑一种更强大的推迟方法,当专家模型给出不正确的响应时可以回溯。这种升级将允许协同大型语言模型进行路线校正,从而使算法仍能给出令人满意的答复。

“Co-LLM 为学习在两个模型之间做出选择以提高效率和性能提供了一种有趣的方法,”多伦多大学副教授、Vector 研究所副研究主任 Colin Raffel 说道,他未参与此项研究。

“由于路由决策是在令牌级别做出的,Co-LLM 提供了一种精细的方式,把困难的生成步骤推迟到更强大的模型。

模型-令牌级路由的独特组合还提供了类似方法所欠缺的大量灵活性。Co-LLM 为旨在开发专门模型的生态系统从而超越昂贵的单片 AI 系统的重要工作作出了贡献。