诸神之战!一文盘点中国“大模型”玩家们
文/一橙
开年以来,全球AI大模型行业,鲜花着锦,比肩继踵。微软、Google、Meta、百度等科技巨头你追我赶,掀开了大模型“军备竞赛”时代的序幕。新的挑战者入局,大模型概念不断走高,众多AI企业纷纷宣告进军,拥抱新一轮生产力革命。
在国内,做类ChatGPT产品,建中国版OpenAI,这个无与伦比的“性感故事”,引燃了互联网大厂和科技大佬的创业热情,AI 2.0的“诸神之战”已经打响。
今年2月,原美团联合创始人王慧文的一则“AI英雄榜”,高调入局“剑指”大模型。之后,前搜狗CEO王小川、前京东AI掌门人周伯文、被誉为“AI框架领域第一华人”的阿里技术副总裁贾扬清、出门问问创始人李志飞等一众大佬争先加入ChatGPT掀起的创业热队伍。
还有众多背景华丽的创业团队涌现,其中清华大学处于身负众望的头一梯队。比如,清华唐杰教授的智谱AI,黄民烈教授的聆心智能,清华大学NLP实验室的孙茂松、刘知远团队,深言科技岂凡超,以及循环智能杨植麟等等,都被头部VC赋予了颠覆行业的希望,创业的列车再次提速。
互联网大厂也不甘心错过下一个时代。百度已经率先推出“文心一言”,华为的“盘古”大模型,腾讯的“混元”AI大模型,已经蓄势待发。还有阿里达摩院被曝要推出的类ChatGPT产品,字节跳动被爆正在布局大模型,科大讯飞也被传出类ChatGPT技术将在今年5月落地公司AI学习机产品中的消息.......
生产力范式转移,算力时代悄然开启,一场AIGC带来的奇幻革命正在进行。诸神之战!决战“中国版ChatGPT”,谁会是最后的赢家?
一、创业派
王小川团队
据公开信息,2022年6月,王小川设立了人工智能技术公司——北京百方众智信息技术合伙企业,自己占股80%。另据媒体向王小川本人求证是否回归创业做AI大模型的消息,王小川承认自己在“快速筹备中”。
《态℃ 》栏目从接近王小川的消息源获知,王小川近期正在与产业界和学术界的一些重要人士进行密集沟通,目前项目还没有公开,据说已经搞定了一亿美金的启动资金,被称作“亲友轮”。
王小川于1996年获得国际奥林匹克信息学竞赛金牌,进入清华大学。进入搜狐后,在2004年主导推出搜狗搜索,并在27岁那年成为彼时中国互联网界最年轻的高管。2015年开始,王小川开始讲AI的故事,以“自然交互+知识计算”为核心,推出AI翻译机等产品。
搜狗在2017年11月登陆美国纽约证券交易所,上市四年多时间,营收最高峰停在2019年,营收11.7亿美元,净利润1.05亿。此后不断下滑,2020年营收降至8.37亿美元,亏损1.09亿美元,2021前两个季度,营收同比基本下降超过44%。
2021年10月初,搜狗完成私有化,并从纽交所退市。2021年9月4日,搜狗宣布与腾讯完成合并。合并完成后,搜狗将成为腾讯控股间接全资子公司。2021年10月15日,王小川发布邮件告别搜狗,卸任CEO职务,功成身退。
既有技术主义理想,又懂得商业的智慧,王小川无疑是杀向大模型赛道的一匹黑马。
光年之外
前美团联合创始人、高级副总裁王慧文宣布杀入AI大模型赛道,曾一度引发科技互联网行业的热议。
2月13日,王慧文在社交媒体上发出AI英雄榜,宣布打造中国OpenAI,成立北京光年之外科技有限公司(以下简称“光年之外”),出资5千万美元,估值2亿美元,自有资金占股25%。王慧文进一步表示,下轮融资已有顶级VC认购2.3亿美元。
3月27日晚,王慧文创立的公司光年之外被传将以换股形式收购北京一流科技,在现有团队基础之上,打造中国版的ChatGPT。公开信息显示,一流科技成立于2017年1月,自称是世界上唯一一家以“创业团队”身份研发通用深度学习框架的团队。其产品OneFlow的竞争对手包括百度的PaddlePaddle、谷歌的TensorFlow和Facebook的PyTorch。
之前还有消息称,美团创始人兼董事长王兴个人将参与王慧文AI创业公司A轮融资,并出任董事。王兴曾在朋友圈中表示,“AI大模型让我既兴奋于即将创造出来的巨大生产力,又忧虑它未来对整个世界的冲击。老王和我在创业路上同行近二十年,既然他决心拥抱这次大浪潮,那我必须支持。”
王慧文和王兴曾联合创办校内网(后更名人人网),此后又一起创办了美团。2020年12月,王慧文宣布从美团退休时,王兴曾在公开信中表示:“老王和我是有共同志趣的同学和室友,是携手创业的搭档和并肩战斗的战友,更是可以思想碰撞、灵魂对话的一生挚友。”
两年后,在AI大模型赛道,两人再次走到一起,共同奔赴新的战场。
Project AI 2.0
同样高调入场的还有AI大牛李开复,3月19日下午,其在朋友圈宣布成立Project AI 2.0公司。同一天,新公司在其创新工场官网正式上线。
据了解,Project AI 2.0不仅仅要做中文版ChatGPT。李开复认为,AI 2.0不仅仅是个高能聊天工具,也不仅仅是图文创作的AIGC生成,Co-pilot和如今看到的应用都还只是AI 2.0能力的开端。
他还透露,Project AI 2.0的资金、算力陆续到位,新公司期权由新团队绝对主导,首批广招大模型、多模态、NLP(自然语言处理)、AI算法工程与研究、分布式计算/Infrastructure等方向大的顶级人才推荐自荐。
澜舟科技
今年3月14日,语言大模型玩家澜舟科技,刚刚完成了Pre-A+轮融资。本轮融资由北京中关村科学城公司领投,斯道资本和创新工场跟投。这也是澜舟科技一年内收获的第2轮融资,累计总额已经数亿元。
和融资消息一同公布的还有澜舟科技推出的语言生成模型——孟子MChat可控大模型。据介绍,它有类ChatGPT的能力,加上原来澜舟科技孟子大模型N个项目功能引擎,最终呈现出来的MChat,既有对话能力,又具备翻译、生成、信息搜索等能力。
澜舟科技创始人周明是闻名世界的NLP专家,也是当今NLP领域成就最高的华人之一,他不仅是中国第一个中英翻译系统的研制者,还在2019年成为AI语言领域最高级顶会ACL(国际计算语言协会)主席。
公开资料显示,周明先后就读于重庆大学、哈尔滨工业大学和清华大学,并在清华大学担任过副教授。创业前,周明长期在微软亚洲研究院担任NLP组的负责人、微软亚研副院长。周明在NLP领域发表的文章数量居世界前列,2012年至2020年期间,周明在NLP领域顶会发表的论文数量居全球第一。
MiniMax
MiniMax在2021年11月成立,是一家颇为神秘的人工智能公司,成立至今,对外发声次数屈指可数。根据明势资本官方消息,2022年上半年,明势资本领投了MiniMax的天使轮融资。
但事实上,MiniMax是国内名列前茅的多模态AI大模型创业公司,形成了文本到视觉(text to visual)、文本到语音(text to audio)、文本到文本(text to text)三大模态的基础模型架构,可能也是国内第一家同时拥有3个模态大模型能力的创业公司。
MiniMax首款C端产品Glow,和ChatGPT百科全书一样的回答不同,Glow的定位在AI虚拟聊天社交软件,主打聊天、陪伴等情感功能,目前用户数已经破百万。在to B方向,MiniMax计划在今年对外开放API。
有媒体曾披露,MiniMax联合创始人为前商汤科技副总裁、通用智能技术负责人闫俊杰,也曾担任商汤研究院副院长,搭建了商汤的人脸识别和智慧城市相关的技术体系。在深度学习和计算机视觉领域,闫俊杰发表顶级会议和期刊论文100余篇, Google Scholar引用超过10000次。
目前,MiniMax团队人数已过百,公司核心技术研发成员均来自全球知名高校和全球顶尖科技公司,拥有世界顶尖自然语言处理,语音,计算机视觉,计算机图形学等工业界和学术界经验,拥有多项全球领先的人工智能领域研究成果,具有上百个全球发明专利,1/3的团队成员拥有世界顶尖技术实验室的博士学位。
衔远科技
2月26日晚,前京东AI掌舵人周伯文发布一则AI英雄帖,招募合伙人一起打造中国版ChatGPT。这是继前王慧文、王小川之后又一位下场的业界大牛。
周伯文长期致力于语音、自然语言处理、多模态内容理解与生成、知识表征与推理、人机对话、可信赖 AI等研究领域及其在产业化、数智化的应用。他提出的自注意力融合多头机制的自然语言表征机理后来成为 Transformer 架构的核心思想之一,他还曾与图灵奖得主 Yoshua Bengio在NLP方向合作一篇论文,至今被引用2000多次,其论文总引用次数也高达近15000。
周伯文自2021年底从京东离职后,转去学术界,担任清华大学惠妍讲席教授、电子系长聘教授 、清华大学电子系协同交互智能研究中心主任。同时,他还是衔远科技的创始人、首席科学家。
在英雄帖中,周伯文也表达了衔远科技参与 ChatGPT 这一波所走的差异化路线——中国的 OpenAI 需要探索一条新的道路:垂直整合从自有基础大模型到应用、用户全场景闭环,实现生成式人工智能技术与商业价值 " 双落地 "。
今年3月1日,衔远科技宣布已经完成数亿元天使轮融资,本轮融资由启明创投领投,经纬创投跟投。
二、学院派
智谱AI
智谱AI由清华大学计算机系唐杰教授创立,团队核心成员曾参与清华大学与智源研究院合作项目「悟道」的研发工作,具有丰富的大模型经验。
2022年8月,清华大学知识工程实验室与智谱AI合作研发的超大规模预训练语言模型GLM-130B正式上线,在多个公开评测集上性能超过GPT-3。
去年9月,智谱AI宣布获得数亿元人民币B轮融资,由君联资本和启明创投联合领投,本轮融资将被用于继续投入到打造高性能千亿级普惠大模型。
唐杰,清华大学计算机系教授,刚刚入选2023 AAAI Fellow,也是ACM/IEEE Fellow。研究方向包括人工智能、数据挖掘、社交网络、机器学习和知识图谱等,曾获ACM SIGKDD Test-of-Time Award(十年最佳论文)。
就在GPT4发布的同一天,唐教授在微博宣布:基于千亿参数大模型的对话机器人ChatGLM,现在开启邀请制内测。据介绍,这是一个初具问答和对话功能的千亿中英语言模型。
聆心智能
另一支赫赫有名的清华系NLP队伍,是交互式人工智能(CoAI)课题组教授朱小燕和其学生黄民烈团队,他们先后提出过SentiLARE、StoryGPT等预训练模型。
黄明烈副教授于2021年创立聆心智能,专注心理咨询赛道,致力于打造“超拟人底层大模型”。2022年团队上线“AI乌托邦”对话机器人,支持自定义AI人设进行聊天交互。团队核心成员均来自于清华大学、卡内基梅隆大学、谷歌等国内外顶尖高校及公司,具有丰富的商业化经验。
作为国内具备训练超大规模语言模型能力的团队之一,聆心智能将自己定位为"中国的 Character AI",旨在提供情感陪伴的文本生成服务,公司目前已完成Pre-A轮融资。
黄明烈本人是自然语言生成领域的资深专家,清华大学计算机科学与技术系长聘副教授,国家杰出青年科学基金获得者,智能技术与系统实验室副主任。研究兴趣主要集中在人工智能、深度学习、强化学习,自然语言处理如自动问答、对话系统、情感与情绪智能等。已超过100篇 CCF A/B 类论文发表在 ACL、IJCAI、AAAI、EMNLP、KDD、ACM TOIS、TASLP、TKDE 等国际顶级或主流会议及期刊上。
清华大学NLP实验室的孙茂松、刘知远团队
从 NLP 的学科方向上看,清华系孙茂松、刘知远团队算其中一股中坚力量,来自清华自然语言处理与社会人文计算实验室(THUNLP)。THUNLP成立于上世纪70年代的实验室,牵头人是国内NLP研究领域的泰斗黄昌宁。
清华大学自然语言处理与社会人文计算实验室(THUNLP),是国内最早开展 NLP 研究、且极具影响力的科研单位。实验室于20世纪70年代末成立之初,由中国 NLP 开山人物黄昌宁带领,ACL Fellow 孙茂松是他的学生,刘知远则是孙茂松的学生。
在语言大模型方面,孙茂松、刘知远团队从2018年跟进预训练范式,2019年初发布了 ERNIE 语言模型(与同时期百度版 ERNIE 同名),之后研发了 CPM 模型,是智源研究院「悟道·文源」的前身。
2021年底,该团队发布了机器中文语言能力评测基准“智源指数”(CUGE),以评测和推动中文NLP的发展。一个是AI写诗模型“九歌”,训练过程中学习了80万首中国古诗;另一个是语言表征模型ERNIE(和百度文心大模型同名),可与当时任务最优的BERT媲美。
深言科技
孙茂松、刘知远及其门下毕业的学生,在 NLP 和大模型领域已孵化了多个公司。其中就包括岂凡超于2022年成立的深言科技,致力于以自研中文大模型构建工业级中文信息处理引擎。
2019年,清华大学自然语言处理实验室(THUNLP)研制出一款名为WantWords的反向词典,能够根据语义描述查找词语,可用于写作辅助等多个场景;2021年11月,这款应用突然在微博爆红,多次挤爆了服务器;2022年5月,基于语义的名言名句检索系统WantQuotes上线,截至去年8月,WantWords和WantQuotes已有超200万用户。
这支团队就是深言科技的前身,目前当初研发这款应用的几位同学目前已毕业,并和他们的导师孙茂松教授一同创办了创业公司深言科技(DeepLang AI),公司成立之初即获得一线VC千万元级投资。
深言科技的CEO岂凡超在人工智能和自然语言处理领域的国际刊物发表论文近30篇,申请专利十余项。目前,深言科技团队的核心成员主要由清华大学的博士、硕士组成,并由孙茂松教授领衔担任首席科学家。
循环智能
在这次激烈的大模型“军备竞赛”中,不乏履历光鲜的90后创业者出现,首屈一指的就是循环智能联合创始人杨植麟。
杨植麟本科就读于清华大学计算机系,师从IEEE Fellow唐杰,2015年以年级第一名的优异成绩毕业;随后,赴自然语言处理(NLP)研究全球排名第一的卡内基梅隆大学语言技术研究所(LTI)攻读博士,师从苹果AI研究负责人Ruslan Salakhutdinov和谷歌首席科学家William Cohen,4年即拿下博士学位。
博士期间,他与图灵奖得主Yoshua Bengio合作发布「火锅问答」数据集HotpotQA,又以一作身份发表的 XLNet 与 Transformer-XL在NLP领域产生重要影响,成为 NeurIPS 2019与 ACL 2019的最高引论文之一,谷歌学术引用次数直接破万……
这位90后创业者不仅学术履历优秀,在产业界的表现也可圈可点。2016年,杨植麟创立循环智能,公司主要业务是运用NLP、语音、多模态、大模型等人工智能技术打造“销售科技”方案。与此同时,智谱AI和清华研究团队的多个AI项目由他主导,例如华为的“盘古”大模型也是杨植麟团队和华为云联合推出的。
目前,循环智能已进行到B轮融资,并连续三年实现了超200%的营收增长。
复旦邱锡鹏教授团队
2月20日,复旦大学自然语言处理实验室的邱锡鹏教授团队携上海人工智能实验室发布“国内第一个对话式大型语言模型MOSS”,它是一种类似于 ChatGPT 的对话聊天机器人或语言模型,可以执行各种功能,例如给出答案、生成对话、编写代码等。邱锡鹏教授介绍,对话式大型语言模型MOSS大概有200亿参数。
据介绍,未来,MOSS的优化将会围绕三方面展开:团队会准备更高质量的中文数据;会开放接口,让MOSS与人类进行对话,收集更多的对话数据;同时,团队还会进一步加大投入,扩大其参数规模。
邱锡鹏教授为自然语言处理领域的资深学者,曾主导开发NLP工具FudanNLP,团队主要研究方向为自然语言处理和深度学习。目前,邱锡鹏与他的MOSS团队——8位年轻的复旦学生,正紧锣密鼓地开展内测和迭代工作。
三、大厂派
百度
3月16日,百度启动基于百度新一代大语言模型的生成式AI 产品“文心一言”的邀请测试,使用场景主要包含文学创作、商业文案创作、数理推算、中文理解和多模态生成。
目前来看,“文心一言”的基础能力还算扎实,具备文学创作能力,可以进行总结、分析、内容、检索,延伸至检索增强。只是,从当前的测试状态来看,不乏“翻车现场”,达到的效果并不算是完美。
百度一直坚持压强式、马拉松式的研发投入。百度高额的研发投入主要集中在AI领域,自2012年成立AI部门开始百度在十年里累计投入到AI方面的研发费用超过了1000亿元,是全球大厂中极少数具有能支撑训练大语言模型的公司。
从算力、算法到数据,从高端芯片昆仑芯,到飞桨深度学习框架,百度在各个层面都早有关键自研技术,给百度文心一言提供了一定的研发投入壁垒。
华为
2021年4月,盘古大模型正式对外发布。其中盘古 NLP 大模型是业界首个千亿参数的中文预训练大模型,在 CLUE 打榜中实现了业界领先。为了训练 NLP 大模型,团队在训练过程中使用了40TB 的文本数据,包含了大量的通用知识与行业经验。
3月27日有消息传出,华为盘古大模型4月将发布,将对标CHATGPT,同样达到千亿级参数量,是全球最大的中文语言AI训练大模型,由华为与鹏城实验室联合开发,鹏城云脑二期提供算力底座。
华为这方面的核心人物,是国际欧亚科学院院士、IEEE Fellow、华为云人工智能领域首席科学家田奇。加入华为之前,田奇已经是业界知名的 AI 领域学者。他是美国伊利诺伊大学香槟分校博士、IEEE Fellow,也是原德州大学圣安东尼奥分校计算机系正教授。在高校任教17年之后,带着学术界的前沿思考和科研成果,田奇与团队来到了产业一线。
腾讯
AI大模型方面,腾讯表示正大力投入人工智能与云基础设施建设,腾讯混元AI大模型覆盖NLP(自然语言处理)、CV(计算机视觉)、多模态等基础模型和众多行业与领域模型,还推出了万亿中文NLP预训练模型。
2022年4月,腾讯首次对外披露HunYuan大模型研发进展—HunYuan集CV、NLP、多模态理解能力于一体,先后在MSR-VTT、MSVD等五大权威数据集榜单中登顶。
2022年5月,“混元”在国际公认的CLUE三个榜单同时登顶,一举打破三项纪录。去年年底,腾讯HunYuan进一步推出国内首个低成本、可落地的NLP万亿大模型,并再次登顶自然语言理解任务榜单CLUE。
据悉,HunYuan是业界首个可在工业界海量业务场景直接落地应用的万亿NLP大模型,最快用256张卡,1天内就能训练完成,成本直接降至原来的1/8。
阿里达摩院
AI大模型方面,据阿里研究院公布的信息显示,达摩院在2020年初启动中文多模态预训练模型M6项目,同年6月推出3亿参数的基础模型;2021年1月模型参数规模到达百亿;2021年5月,具有万亿参数规模的模型正式投入使用;2020年10月,M6的参数规模扩展到10万亿,成为当时全球最大的AI预训练模型。
M6于2021年3月首次发布,后来通过480块GPU更迭至万亿参数,并成功在10天内训练出10万亿模型,其参数规模与GPT-3相当,但能耗仅为其1%。
阿里云曾表示,M6已在超40个场景中应用,日调用量上亿。在阿里云内部,M6大模型的应用包括但不限于在犀牛智造为品牌设计的服饰已在淘宝上线、为天猫虚拟主播创作剧本,以及增进淘宝、支付宝等平台的搜索及内容认知精度等,尤其擅长设计、写作、问答,在电商、制造业、文学艺术、科学研究等前景中落地。
M6的负责人为杨红霞,据公开资料,杨红霞2007年本科毕业于南开大学,获统计学学士学位。其后她去往美国杜克大学统计科学系攻读博士学位,师从 David Dunson 教授。博士毕业后,先入职 IBM 全球研发中心任 Watson 研究员,之后入职雅虎公司担任首席数据科学家。杨红霞在人工智能领域国际会议、顶级期刊有上百篇顶级论文。
不过,3月22日有消息传出,阿里巴巴的语言生成大模型M6的原带头人杨红霞已加入字节跳动AI Lab,担任语言生成大模型的研发领导。
字节跳动
据媒体消息,字节跳动方面正在大模型方面布局、在语言与图像模态方面发力。字节跳动相关技术负责人表示,技术中台在这些领域的探索仍处于初期,尚未成熟。
报道称,语言大模型团队由字节搜索部门领导,目前规模在十数人左右;图片大模型团队由产品研发与工程架构部下属的智能创作团队牵头。
知情人士表示,字节跳动语言大模型团队在今年组建,探索方向主要为与搜索、广告等下游业务的结合,语言大模型团队的预期是在今年年中推出大模型。
科大讯飞
科大讯飞于2022年12月份启动生成式预训练大模型“1+N”任务攻关,其中“1”是通用认知智能大模型算法研发及高效训练底座平台,“N”是应用于教育、医疗、人机交互、办公、翻译、工业等多个行业领域的专用大模型版本。
公开资料披露,科大讯飞类ChatGPT技术将在今年5月落地公司AI学习机产品中。
科大讯飞在教育、医疗、司法等不同行业多年的规模化应用积累了超过50TB的行业语料和每天超10亿人次用户交互数据,为训练实现达到人类专家水平的行业认知大模型提供了海量行业文本语料和用户反馈数据,也为基于大模型的创新应用研发和试点推广提供了场景保障。
结语:
1769年,英国人瓦特改良的蒸汽机掀开了热力时代的序幕。今天,伴随AI 算量需求急剧增加,倒逼传统计算架构加速革新,算力时代已经悄然开启。
未来,AI大模型技术的影响力,有可能接近印刷术,蒸汽机,电力,芯片,互联网,其所带来的巨大颠覆性,可能引领人类社会整个技术发展产生跃迁,结果是会导致人类经济产生非线性的跃迁。
诱人的前景下,也是指数级上升的入场难度。
首先,高算力就代表着高成本,意味着AI 2.0时代创业的绝对高门槛,没有雄厚的资金支撑根本无法承担AI训练的费用,这也预示着进场船票非常难得,非大厂和明星创业者团队,几乎没有跑完全程的希望。
同时,AI 2.0创业对技术有了更严苛的要求。有投资人向《态℃》栏目透露,市面上但凡能做底层的模型,不管是去做语言大模型的,还是去做强化学习的,只要以技术见长,以工程化产品化的思维做底层模型的公司,真正有技术水平的创业公司,国内尚不超过十家。
最后,AI大模型顶级的技术人才是更为稀缺的资源。大佬们下场,打的第一场仗就是抢人,毕竟国内真正主导开发深度学习框架、人工智能框架的顶尖技术大牛少之又少,优秀人才可谓可遇不可求。
这场诸神之战,最终谁将脱颖而出引领下一个时代?对于中国科技公司,距离终点仍有漫长的道路要摸索、攀登。