中国开源参与者数量位居世界前列 大模型开源生态逐渐形成

大模型崛起以来,关于它是否要开源的讨论就始终未停歇。Meta、谷歌、阿里云、零一万物等“开源派”代表,陆续推出了各自的“开源”大模型,或采用Apache 2.0等常见的开源软件许可证进行许可,或采用自行定制的模型许可证进行许可。OpenAI、字节跳动、百度等“闭源派”代表,则通过闭源形式研发自己的大模型,加速商业化进程。

伴随开源阵营逐渐壮大,其生态也得以展现。近日,“2024开放原子开源生态大会”在北京举行。会议现场,人工智能开源的利弊、为何开源等话题再次引发了与会企业家及学者的讨论。模式之争的背后,是关于如何平衡技术创新、商业利益、社区参与和市场竞争力的讨论。

开源能实现快速的迭代试错

顾名思义,开源是指一种软件开发模式,即源代码免费公布,开发者可自由下载、修改、分发,进而反馈软件Bug(软件缺陷或错误),提出优化建议。从目前我国的开源进展来看,根据工业和信息化部部长金壮龙在会议期间的介绍,近年来,中国扎实构建国内开源体系,支持设立开放原子开源基金会,搭建起国内外交流、产学研合作的重要平台。其中,开源欧拉社区汇聚贡献者2万余人,用户数量超过350万;开源鸿蒙项目吸引340余家生态单位共建,搭载设备数量超过9亿台,木兰中文开源许可协议实现国际通用。目前,我国开源参与者数量、增长速度均位居世界前列。

开源模型,是指可免费使用、公布了模型参数等技术细节的模型。开放原子开源基金会在此次大会期间正式发布了开放原子模型许可证第一版(OpenAtom Model License, Version 1.0),可为大模型应用提供由基金会中立维护、任何人均可自由选用的开放许可证。

在中国科学院软件研究所副总工江大勇看来,自1991年Linux创始人首次发布其操作系统版本以来,系统已从最初的仅含1万行代码,发展到如今的内核规模达3000万行代码,展现了开源软件的生机与潜力。

“GPT发展这么快速,单月就发展到亿级用户,这是历史上从来没有的。它为什么能够发展这么快?很关键的原因是开源推动快速迭代、快速试错。”在江大勇看来,通过开源的方式实现快速迭代试错,也是AI的主流技术路线之一。

开放原子开源基金会秘书长助理兼运营部部长李博也认为,开源正逐渐成为推动AI技术进步的重要途径,开源数据集的提供降低了研究和应用的门槛,使得更多的研究人员、初创公司能够参与到人工智能的研究之中,共享数据、共担算力、共建算法。

不过,开源和闭源究竟哪个所需的成本更低,业内始终争论不休。今年4月,百度创始人李彦宏曾公开表示:“大家以前用开源觉得开源便宜,其实在大模型场景下,开源是最贵的。”

在江大勇看来,大模型时代与过去工业时代“十年磨一剑”不同,如今通过开源的方式可更快实现自身的产品迭代和生态覆盖,解决单一主体创新成本过高的问题。“开源后每个人的智能结合在一起,会出现(智力)涌现,这也是大模型的特点。通过去中心化的协作,激发各主体创新效率和创新质量。”江大勇称。

计算架构下,AI发展仍面临三大困境

与会期间,不少企业及专家还表示,其实人工智能开源是很多企业基于实际情况必须做出的选择。

中国电信天翼云产品专家、魔乐社区负责人李宝龙就直言,在国内做人工智能,首先要面对AI中文可用资源匮乏的问题。“不是AI中文资源匮乏,是可用资源匮乏。举个例子,前段时间GPT出来的时候,国内训练了一个大模型并开放出来测试,但是需要输入中文以后翻译成英文,生成后再翻译回中文。”

北京智源研究院副院长林泳华也表示,就大模型的发展来说,中文数据,尤其是高质量的中文数据还是很欠缺,开源则可弥补这个问题。

除了训练数据不足,江苏润开鸿数字科技有限公司副总裁于大伍介绍,从计算架构来看,当下AI发展面临三个困境——训练与推理高能耗、计算架构与软硬件生态封闭、算力系统复杂度高,这导致投入产出比低。与此同时,操作系统还面临着重、笨、杂的问题。

“我们私底下在想该怎么解决这些问题,想了很多办法,最后我们觉得,一个比较好的载体是社区。”于大伍表示。

不过,谈到做社区,业内不少人认为,社区形式无法让AI技术快速变现,会影响商业化。对此,于大伍持有不同观点。

“其实大家做开源就知道,开源跟商业是螺旋向上的发展(关系),所以社区一定要跟商业很好地结合。我们现在想的是,社区汇聚了国产AI全产业链的能力,但社区不提供商业化的服务,而是依托成员单位提供这样的服务。在这种感召下,会有很多的开发者愿意分享。”于大伍说。