复刻OpenAIo1推理大模型,强化学习开源代码LLaMA-O1问世

最近,一款复刻OpenAI o1推理大模型的开源项目LLaMA-O1正式发布。该项目来自上海 AI Lab(上海人工智能实验室)团队,其强化学习代码的开源,基于LLaMA开源模型和AlphaGo Zero范式,引起了业界的广泛关注。

LLaMA-O1使用了蒙特卡洛树搜索、Self-Play强化学习、PPO以及AlphaGo Zero的双重策略范式(先验策略+价值评估)。这些技术的应用,使得模型在学习和推理过程中能够更加高效地获取知识和提升能力。

早在2024年6月,OpenAI o1发布之前,团队就开始探索蒙特卡洛树搜索提高大模型数学能力。此后,团队不断升级算法,专注于数学奥赛问题,将其作为OpenAI o1的开源版本。10月初,团队上传新论文,使用成对优化提高Llama模型数学奥赛能力,在AIME2024基准测试中取得了显著的进步。10月底,团队宣布在基于AlphaGo Zero架构复刻OpenAIo1 的努力中取得重大进展,成功使模型在学习过程中通过与搜索树交互获得高级思维能力,无需人工标注。

目前已开源的内容包括预训练数据集、预训练模型和强化学习训练代码。其中,OpenLongCoT-Pretrain数据集包含10万+条长思维链数据,每条数据包含一个完整的数学问题推理过程,这为模型的进一步训练提供了丰富的素材。在预训练模型基础上,可以继续进行强化学习训练,其训练过程包括使用蒙特卡洛树搜索进行自我对弈生成经验,将经验存储在优先经验回放缓冲区中,从缓冲区采样批次数据进行训练,更新模型参数和经验优先级等步骤。同时,训练代码中还使用了LoRA进行参数高效微调、PPO算法作为策略优化方法、实现GAE算法用于计算优势函数以及使用优先经验回放提高训练效率等关键技术点。

除了LLaMA-O1项目外,上海交通大学团队的o1-Journey项目也在进行OpenAI o1复刻工作,并取得了一定的进展。

LLaMA-O1强化学习开源代码的问世不仅提供新资源与思路,促进大模型数学推理等能力提升,也有利于降低行业门槛,推动创新与竞争,构建更广泛生态系统。此外,它还为数据敏感行业开发垂类模型提供便利,有助于人工智能技术在更多领域落地应用。