国产大模型的机遇与挑战
中青报·中青网见习记者 张仟煜 记者 樊未晨
随着人工智能技术的不断突破,大模型在各个领域的应用日益广泛,并逐步成为推动社会进步的重要力量。
近日,中国计算机学会(CCF)大模型论坛(FoLM)主题会议在北京举办。本次会议的主题为“大模型技术进展与挑战”,多名来自国内外的顶尖学者和业界精英,围绕大模型技术的前沿动态、发展趋势及技术挑战等议题展开了深入探讨。
提到大模型,学者们绕不开的一个词是“超级对齐”(Super Alignment)。超级对齐是大模型自我进化、迭代的过程,通过反馈提升模型的能力。超级对齐旨在确保机器学习模型,特别是大语言模型与人类的目标、价值观和道德规范保持高度一致的研究方向。
2023年7月,国家网信办等七部门联合公布的《生成式人工智能服务管理暂行办法》,明确提出坚持发展和安全并重、促进创新和依法治理相结合的原则,要求人工智能应当遵守法律、法规以及尊重社会公德和伦理道德,保障AI技术应用的安全、可靠、可控。
国内已有多家机构发布了针对大模型对齐的高质量数据集,这些数据集月均下载量超过100万,得到了全球大模型的真实验证。这些数据集通过提供高质量的指令和回复,旨在确保模型的行为与人类价值观一致,为超级对齐的研究提供了有力支持。
华为语音语义首席科学家刘群认为,超级对齐不仅要考虑与人类价值观的对齐,还要关注与物理世界的对齐,最终实现模型的自我迭代与自我演化。“研究超级对齐,是让语言模型真正为我们服务,反映真正的客观世界、真正的意识世界,这是它有用的地方。”刘群说。
大模型对算力的需求巨大。清华大学电子工程系长聘教授汪玉在会上提到,训练GPT-3的耗电量为128.7万度,相当于国内348个家庭一年的生活用电,但这仅仅是前期训练所消耗的电量。据汪玉介绍,GPT每日访问量约为2.7亿次,平均每次访问5个问题,每月用在回答问题上的推理计算耗电量则是1872万度。
“如果大模型真的能够改变千行百业,算力规模可能会扩大100倍甚至1000倍。”汪玉说。
随着大模型技术的不断成熟,产业化和商业化进程也在不断加速。越来越多的企业开始将大模型技术应用于实际业务中,推动了人工智能技术的落地和普及。“输入一个短视频,在生成创建新的3D对象的时候,可以模仿这个动作,实现4D动画的创建。”清华大学人工智能研究院副院长朱军重点介绍了Vidu视频大模型的创新,包括一键生成32秒长视频、发布视频/文本到音频生成技术,以及Vidu4D的高效重建。
哈尔滨工业大学车万翔教授提出了“推理粒度”框架来解释思维链技术的机理,并通过实验验证了该框架的有效性,进一步指导了思维链策略的优化。
会议上,学者们就Maas模型展开了讨论。Maas模型全称Model as a Service(模型即服务),是一种将AI大模型转化为可服务化产品的新型商业模式,具有降低技术门槛、提高使用效率、弹性扩展等特点,广泛应用于城市出行、跨城出行、旅游出行等领域。
今年5月,智谱AI的GLM-3 Turbo模型(Maas模型的一种)从5元/百万tokens,首次降至1元/百万 tokens。GLM-4-Flash版本则降了10倍,现在每百万tokens只需0.1元。
清华大学计算机系博士何家傲认为,Maas模型的价格“会一直降下去的,模型训练数量也会随着技术进步不断地减少”,同时,他也提到,更重要的问题还是在算力本身降价的情况下,大模型如何发挥更大的价值,尤其是其本身商业上的价值,是更值得去思考的一个问题。
来源:中国青年报客户端