对话丨面壁智能刘知远谈被斯坦福学生AI团队抄袭:善用开源成果,将快速提升AI能力的“下限”

21世纪经济报道记者冯恋阁 实习生孔雅萱 广州报道

近日,一起大模型抄袭争议冲上热搜。2名斯坦福学生和1名南加州大学学生组成的AI团队发布了一篇文章,称训练出了一个开源多模态模型Llama 3-V。

不久,有网友发现,Llama 3-V与清华系大模型创业公司面壁智能的MiniCPM-Llama3-V 2.5在模型结构、代码、配置文件等方面几乎一模一样,只是将变量名称做了更改,质疑该团队研究成果“套壳”了面壁智能的相关模型。这一结论在之后得到了面壁智能的进一步确认。这起套壳纠纷最后以学生AI团队删去相关成果告终。

虽然事件的两方都各有回应,但仍有许多环绕开源大模型“套壳”现象的问题待解。“套壳”是好是坏?走开源,还是走闭源?生成式人工智能技术的应用探索现状如何?

在面壁智能联合创始人、首席科学家,清华大学计算机系长聘副教授刘知远看来,“套壳”的说法,更多是指对已有开源模型利用自有数据进一步训练和微调,从而形成定制模型,很多开源模型的协议允许定制和修改,只要遵守开源协议就应当支持和保护。“套壳”这种说法听起来可能有些贬义的意味。

“开源社区支持和鼓励复用前人成果,这也是开源社区吸引全球开发者蓬勃发展的主要原因。 Llama3-V团队的核心问题在于,将他人成果声称为自己的成果。”刘知远向21世纪经济报道记者表示。

模型“套壳”需理智看待

21世纪:近日,斯坦福大学Llama3-V团队“抄袭/套壳”面壁智能大模型的消息在海内外引发热议。媒体报道使用的描述有“抄袭”和“套壳”两种,请问你觉得哪种描述更为合适?套壳和抄袭是否存在区别?

刘知远:“抄袭”或“套壳”的说法都只能反映一部分事实,事实是Llama3-V直接使用了MiniCPM-Llama3-V 2.5的模型和代码,并作为自己的成果进行宣传。

开源社区支持和鼓励复用前人成果,这也是开源社区吸引全球开发者蓬勃发展的主要原因。不同的开源协议对使用成果有不同的约定。Llama3-V团队的问题不在于违反了哪项开源协议,而是将他人成果声称为自己的成果。

21世纪:在你看来,大模型的“壳”和“核”各是什么?有相关标准能帮助判断吗?

刘知远:“套壳”的说法,更多是指对已有开源模型利用自有数据进一步训练和微调,从而形成定制模型,目前尚无明确的判断标准。不过,很多开源模型的协议允许定制和修改,只要遵守开源协议就应当支持和保护。“套壳”这种说法听起来可能有些贬义的意味。善用前人成果,努力站在巨人肩膀上实现高质量发展,是开源社区的重要价值。

21世纪:这次风波中“套壳”嫌疑最终被确认,直接证据是能够识别“清华简”上的战国古文字。为什么选择内置识别清华简这个彩蛋,是本来就希望做一个“防伪标识”,还是有其他原因?

刘知远:内置“清华简”识别能力的初衷还真不是作为“防伪标识”。我们团队一直以来致力于自然语言处理研究,因此近年来与清华大学出土文献中心有很多AI+古文字学方面的合作和交流,一直积极探索面向楚简和甲骨文的智能化处理技术。中国古文字都是在甲骨或楚简等载体上,兼顾象形的视觉属性和序列化的语言属性,所以特别适合发挥多模态大模型的威力。因此,我们想到在最新的多模态模型MiniCPM-Llama3-V 2.5中内置对中国古文字的识别能力,这也算我们中国学者特有的“小浪漫”。

21世纪:事实上,此前国内外已经发生过多次套壳“纠纷”,在你看来,除了采用类似“清华简”彩蛋这类的方法,还有哪些方式能够发现、确认套壳大模型?

刘知远:除了类似“清华简”识别能力这样的“水印”,“套壳”一般通过大模型的分词词表、架构设置(如层数、向量维数等)和能力表现等判断。这次之所以能够比较确认Llama3-V套壳MiniCPM-Llama3-V 2.5,主要是因为这层“壳”太薄了,能够找到多方面的直接证据。

21世纪:与此前的中国产品被质疑套壳海外模型不同,这次争议中“被抄袭”的对象是我国的模型。谷歌DeepMind一位研究员在点评此事时说,有同样表现的MiniCPM-Llama3-V 2.5得到了太少的关注,而这似乎仅仅因为这个模型不是来自一所“美国常青藤名校”,怎么看待这一点?如何评价我国大模型在研发和应用上的成果?

刘知远:去年Meta Llama开源模型出现以来,的确出现很多类似“国外一开源,国内就自研” 的说法。实际上,国内很多大模型团队一直坚持在国际开源社区贡献优秀的算法、模型和数据。相信随着时间演进,这些努力会被更多国际同行“看到”。

当然,在更加自信努力的同时,我们也需要保持谦虚谨慎,我国还缺少像Transformer、ChatGPT、AlphaFold这样的引领领域发展的原始创新成果,仍需与国际同行互相学习,努力做出更具基础影响力的成果。

开源、闭源共筑AI生态

21世纪:你的团队还发起建设了开源社区OpenBMB,创建这个社区的初衷是什么?在社区逐渐发展的过程中有没有什么激动人心的节点?

刘知远:早在2021年9月创立OpenBMB时,我们就确立了“让大模型飞入千家万户”的目标并一直向着这个方向努力。我认为,要帮助人类走向通用人工智能(AGI)时代,不仅要建设更强的大模型,更要高质量、低成本地建设大模型,让每个人都能用得上、用得起通用智能。在今年5月20日OpenBMB成立三周年之际,我们推出了具有强大的多模态综合能力的MiniCPM-Llama3-V 2.5作为用户的“节日礼物”。

21世纪:大模型的开闭源之争从未停止,怎么看待这两条路线的技术和应用前景?

刘知远:未来的AGI产业生态将由开源和闭源共同组成。一方面,开源大模型将快速提升大模型能力的“下限”,让全球在更强大模型的基础上快速探索AGI创新应用。根据Yann LeCun的统计,开源大模型与闭源大模型能力的差距正在快速收窄。另一方面,正如历史上的商业搜索引擎、个性推荐应用都是包罗万象的复杂系统,未来一旦找到AGI应用模式,一定会形成围绕相关大模型的复杂系统和数据闭环,这将成为各AGI企业的壁垒。正如Google、微软、Meta等国际科技巨头,既是开源社区的重要贡献者,也拥有核心壁垒的闭源系统,这两者互相支撑,并行不悖。

21世纪:在你的“大模型十问”中,安全伦理问题作为一个重要方向出现。据你了解,目前这一领域的重难点是什么,是否已经有了解决方向和方法?比如,饱受非议的AI“幻觉”现象如何防范?

刘知远:安全伦理是一个复杂命题,既有模型一本正经胡说八道的“幻觉”问题,也有通过提示引导模型“越狱”可能导致的违法问题,还有模型可能被滥用于社交机器人水军等社会问题。防范人工智能应用的安全伦理风险,需要从技术创新、社会治理和政府监管等多个角度出发,形成政府、企业、公众等多主体协同共治网络。

21世纪:就目前的情况来看,很多时候如果想要保证AI的“绝对安全”,就会一定程度上影响技术和应用的发展。怎么看待这二者之间的关系?

刘知远:正如历史上的历次科技革命产生的深远影响,我们要意识到,科技发展大势不可阻挡,前进车轮不会以谁的意志为转移。我们更应该做的,是要及时准确预判科技发展趋势,尽量提前做好制度准备,形成治理机制,疏解技术应用可能引发的社会矛盾。

21世纪:在清华任教的同时,你还担任面壁智能的首席科学家。面壁智能一直致力于开发更强的开源大模型,就在这两天,面壁的MiniCPM还宣布将免费商用。公司的商业模式是怎样的,为什么会作出这样的决定?

刘知远:一直以来,面壁团队都怀着“让大模型飞入千家万户”的目标,持续推动OpenBMB开源社区的发展。任何技术的大面积普及,都需要有一个强健的生态,开源就是生态最好的构建方式之一。让MiniCPM开源免费商用,既是我们对认同这份事业的朋友们的回馈,也是我们对于端侧模型生态构建的贡献。

我们公司的商业模式是基于全栈的端侧模型大模型技术能力在C端场景提供完整的解决方案。所以我们的商业产品服务中,包含了持续不断迭代的端侧大模型,还有与之配套的智能体、Infra技术服务和其他的产品服务,我们很多客户也是因为在开源社区了解和体验过MiniCPM之后,主动找到我们的。因此,开源和商业并不矛盾,反之,开源更好地加速了技术的迭代,商业场景落地和品牌的认知。

未来智能将无所不在,MiniCPM的免费商用正在加速这一未来的到来。我们希望让智能飞入千家万户,探索AI在不同场景需求中的无尽潜力。

B端、C端都通向AI普惠

21世纪:此前,你提到你的团队已经在化学、法律领域展开了AI应用的探索。除此之外还有哪些方向的应用或者怎样的产品形态是目前技术上比较可及的?

刘知远:大模型可以被视作一种将数据转化为知识的通用技术。哪里需要知识,哪里就是人工智能和大模型的用武之地。化学和法律等都是人类重要的专业知识,通过构建这些专业领域大模型,可以有效提升相关专业人士的工作效率。例如,在法律领域,可以支持法官、律师和其他法律从业者,更快处理相关专业资料,撰写专业文书和报告,完成专业咨询服务等工作。

可以设想,以往很多知识只能存在于人类头脑中,人类专家会退休,大量知识难以传承,而且人类专家需要休息,无法持续工作。而专业大模型则可以持续学习知识,并且永不停歇地提供服务。专业的AI助手,将成为未来人类工作的重要工具。

人类知识总量正在加速增长。限于寿命和脑容量,人类的对细分领域探索的深度和广度往往难以兼顾;每个人所具备的知识与人类知识总量相比,相对比例急剧下降。缺少对知识的全局认识将极大限制我们的科学创新。所以,我们亟需人工智能帮助将人类知识有效管理起来,在信息爆炸的当下支持人类继续创新迎来下一次科学革命,这也是AI for Science存在的重要意义。

21世纪:toB还是toC也是当前AI走向应用必须要面对的十字路口。看目前的情况,面壁智能在两端都有布局。这两条路线在技术上、商业上有何优劣?面壁智能未来会有主攻的方向吗?

刘知远:无论toB还是toC都是在努力“智周万物”,即让通用智能更好服务人类,不存在优劣先后之分。现在,迈向通用智能的大致发展方向已经确定,但是大模型技术方案还在高速迭代尚未收敛,商业模式也需要随之持续构建和。一项技术得以成熟商用的前提是将使用成本降低至某个临界点,整个行业都还在加速冲向这个临界点。

根据中国电信最近报告估算,全国2023年仅存量手机的总算力是全国数据中心算力总量的12倍,而且端侧算力也在遵循摩尔定律不断增强。我们认为需要也必须“将大模型放在离用户最近的地方”。 面壁团队现在聚焦端侧大模型解决方案,希望用最前沿大模型技术提升终端用户的智能使用体验,让用户在端侧拥有隐私更有保障、响应更及时、服务更个性化的端侧智能;同时端侧模型也将充分开发端侧算力。 我们的最终愿景,是让每个人都能用得上、用得起大模型的通用智能。