模型“越大越好”理念已过?AI大佬:要找到新突破口
11月12日消息,像OpenAI这样的人工智能公司正致力于开发新型训练技术,以便克服在构建更大规模语言模型时遇到的意外延迟和挑战。这些技术旨在使算法以更类似于人类的方式“思考”。
多位人工智能领域的科学家、研究人员和投资者认为,OpenAI最新发布的o1模型,其背后的技术可能会重塑人工智能领域的竞争格局,并影响人工智能公司对资源(如能源和芯片类型)的持续需求。
OpenAI对此未予置评。自聊天机器人ChatGPT发布以来,众多科技公司从人工智能热潮中受益,估值大幅上升。这些公司公开宣称,通过增加数据和计算能力来“扩大”模型规模,可以持续改进人工智能技术。
然而,一些顶尖科学家现在公开指出,模型“越大越好”的理念存在局限性。OpenAI前首席科学家、Safe Superintelligence(SSI)创始人伊利亚·苏茨克维(Ilya Sutskever)表示,扩大预训练方式已进入瓶颈期。预训练是指训练人工智能模型的阶段,模型使用大量未标记的数据来理解语言模式和结构。
苏茨克维曾倡导通过增加数据和计算能力来推动生成式人工智能的进步,并因此创造了ChatGPT。今年早些时候,苏茨克维离开OpenAI,并成立了SSI。他指出:“2010年代是模型规模扩张的时代,而现在我们又回到了奇迹和发现的时代。每个人都在寻找下一个突破点,现在选择正确的扩展方式比以往任何时候都更为重要。”
苏茨克维未透露SSI团队在探索的新方法的具体细节,仅表示团队正在研究扩大预训练规模的替代途径。
据三位知情人士透露,主要人工智能实验室的研究人员在试图发布超越OpenAI GPT-4模型性能的大语言模型时,遇到了延迟和一些不尽如人意的结果,而GPT-4模型至今已推出近两年。
这些大模型的“训练运行”不仅成本高昂,可能达到数千万美元,而且需要同时运行数百个芯片,系统复杂,硬件故障风险也较高。此外,研究人员通常要等上数月才能评估模型的最终性能,这增加了开发过程中的不确定性。
更为棘手的是,大语言模型对数据的需求量极大,当前人工智能模型已几乎耗尽全球所有易获取的数据资源。同时,电力短缺也成为限制训练运行的另一大难题,因为这一过程需要巨大的能源支持。
为应对这些挑战,研究人员正积极探索“测试时间计算”技术,该技术在模型的“推理”阶段增强其性能。例如,模型能够实时生成并评估多种可能性,最终选择最佳路径,而非立即给出答案。
这种方法允许模型将更多的处理能力用于具有挑战性的任务,如数学或编码问题,或是需要类似人类推理和决策的复杂操作。
OpenAI研究员诺姆·布朗(Noam Brown)上个月在旧金山举行的TED人工智能大会上表示:“事实证明,让机器人在扑克牌游戏中思考20秒,与将模型扩大训练10万倍的效果相当。”
OpenAI在其新发布的o1模型中采用了“测试时间计算”技术,该模型原名Q*和“草莓”,能以多步骤方式“思考”问题,类似于人类的推理方式。同时,o1模型还结合了博士和行业专家的数据与反馈。其核心是在GPT-4等“基础”模型之上进行了额外的训练。OpenAI表示,计划将此技术应用于更多、更大的基础模型。
与此同时,据五名知情人士透露,Anthropic、xAI及谷歌DeepMind等其他顶尖人工智能实验室的研究人员也在积极研发各自的“测试时间计算”技术。
OpenAI首席产品官凯文·威尔(Kevin Weil)在10月的一次科技会议上表示:“当前有很多成果触手可及,我们可以迅速采纳,进一步提升模型性能。当竞争对手追赶时,我们将力求保持领先三步。”
谷歌和xAI未回应置评请求,Anthropic也暂未发表评论。
这一趋势或将重塑人工智能硬件的竞争格局。迄今为止,对英伟达人工智能芯片的需求一直占据市场主导地位。知名风险投资机构如红杉资本和安德森·霍洛维茨(Andreessen Horowitz)等已敏锐捕捉到这一转变,并正在评估其高额投资的影响。这些机构已向OpenAI、xAI等多家人工智能实验室的人工智能模型开发投入巨资。
红杉资本合伙人索尼娅·黄(Sonya Huang)表示:“这一转变将引领我们从大规模预训练集群迈向基于云的分布式推理服务器——推理云。”
英伟达最先进的人工智能芯片需求激增,推动该公司市值在10月份超越苹果,成为全球市值最高的公司。然而,与英伟达在训练芯片市场的主导地位不同,这家芯片巨头在推理市场可能会面临更多竞争。
针对其产品需求可能受到的影响,英伟达回应称,在最近的演示中已强调o1模型背后技术的重要性。英伟达首席执行官黄仁勋指出,使用其芯片进行推理的需求正在不断上升。
他在印度的一次会议上表示:“我们现已发现第二个缩放定律,即推理时的缩放定律……所有这些因素共同推动了Blackwell(该公司最新的人工智能芯片)需求的激增。”(小小)