大模型路径之争:理想与现实
英伟达创始人黄仁勋,为正在举办的GTC大会甩出了“王炸”——新一代芯片,Blackwell GPU,包含2080亿个晶体管,支持多达10万亿个参数的AI模型。
在一连串让人看得目眩神迷的产品中,我们简单地总结:这一次,英伟达做了什么?
这一次,英伟达做了什么?
第一,极大地提升了算力,并降低了能耗和成本。
“我们需要另一种方式来进行计算,这样我们才能够继续扩展,这样我们才能够继续降低计算成本,这样我们才能够继续进行越来越多的计算。”
“我们需要更大的GPU,如果不能更大,就把更多GPU组合在一起,变成更大的虚拟GPU。”
以上,是黄仁勋在现场演讲中的话。他再次回忆起,2016年赠送给OpenAI的DGX-1,那也是史上第一次8块GPU连在一起组成一台超级计算机。
当时,DGX1 算力仅0.17 Peataflop(1 Petaflop等于每秒钟进行1千万亿次的数学运算),而今天英伟达推出的 DGX Grace-Blackwell GB200 已经超过1 Exaflop(百亿亿次)的算力。
8年时间,AI算力增长1000倍。
相比上一代H100 Tensor核心的GPU,最新的Blackwell GB200 GPU可以为大语言模型(LLM)推理负载提供30倍的性能提升,而成本和能耗则降低25倍。
第二,算力的提升,意味着万亿级参数模型变得更为现实。
在技术支持下,一个GB200 NVL72最高支持27万亿参数的模型。而据泄露数据,GPT-4也不过只有1.7万亿参数。
万亿参数模型有许多优势,比如进行自然语言处理任务,如翻译、问答、抽象和流畅性;掌握更长期的背景和对话能力;结合语言、视觉和语音的多模态应用;进行创意应用程序,例如讲故事、诗歌生成和代码生成;进行科学应用,例如蛋白质折叠预测和药物发现;实现个性化,能够形成一致的个性并记住用户上下文。
第三,英伟达向软硬一体化的平台发展更进一步。
英伟达推出了全新的AI推理服务器NIM(NVIDIA INFERENCE MICROSERVICE),让所有人都可以通过这一形式自定义AI模型和应用。
以英伟达NIM和CUDA作为中间枢纽,连接了百万开发者与上亿GPU芯片。“成熟的企业平台坐拥一座数据金矿,这些数据可以转化为生成性AI副驾驶。”黄仁勋表示,“这些容器化的AI微服务是我们与合作伙伴生态系统共同创造的,它们是各行各业企业成为AI公司的构建模块。”
在医疗场景上,英伟达此次推出了基于医疗场景的25个新的微服务, 帮助全球的医疗保健公司可以基于生成式 AI进行效率提升。英伟达举了一个例子,与在CPU上运行相比,英伟达的微服务能够将基因组分析工作流程中的变异调用速度提高了50倍以上。目前,全球有接近50家应用程序提供商正在使用英伟达的医疗微服务。对于医疗行业公司来说,他们可以基于这些微服务,筛选数万亿种药物化合物,收集更多的患者数据以帮助早期疾病检测,或者实施更智能的数字助理等等。
接下来,中国大模型路往何方?
过去一年,英伟达的股价从200多美元,上涨至现在的近900美元,市值超过2.2万亿美元。这一家公司的产品迭代速度,对人工智能的发展产生了历史级的影响。影响力也转化为资本市场的认可和回报。
毫无疑问,这是一个赢家通吃的行业。根据富国银行统计,英伟达目前在数据中心AI市场拥有98%的市场份额,而AMD仅有1.2%的市场份额,英特尔则只有不到1%。
英伟达的鲜花着锦,烈火烹油,也让我们更为深入地思考中国大模型的现状和未来。2023年上半年,因为ChatGPT的横空出世,中国大厂与创业公司纷纷投身大模型,一时引发“百模大战”。这又过了大半年时间,中国大模型相关的投资人和从业者,又有了市场路线与技术路线之争:
一边是以月之暗面创始人杨植麟为代表的技术路线,他们大多技术出身,思维偏硅谷,对技术有信仰,信仰AGI(人工通用智能)、信仰scaling law(规模定律),更推崇前辈OpenAI的路径,认为随着模型能力跃升、模型成本降低,会解锁丰富的应用。
杨植麟在接受采访的时候说:
“AI不是我在接下来一两年找到什么PMF(Product/Market Fit,产品/市场匹配),而是接下来十到二十年如何改变世界——这是两种不同思维。
我们是坚定的长期主义者。当你实现AGI或更强智能,今天的一切会被改写。PMF固然重要,但如果着急找PMF,你很可能又被降维打击。降维打击发生过太多次。以前很多人做客服、对话系统,做slot filling(槽填充),有些规模不错的公司。但是,全是降维打击了,很难受。
它不是说不成立。假设你今天找到一个场景,用现在的技术能力,且从0到1增量价值巨大,从1到n空间又没那么大,这种场景OK。Midjourney就是,或者做文案生成,相对简单一点的任务,从0到1效果又很明显。这种是只关注应用的机会。但是,最大机会不在这。你的目的假设是商业化,你不可能脱离AGI去思考。我现在只做应用,那好,可能过一年你就被碾压了。”
另一边则是以周鸿祎、朱啸虎为代表的市场路线,他们更加本土化,信奉尖端的科技必须经过开源、共创才能实现最大化的边际效益,认为需将充足的AI能力投入可以快速变现的商业场景中进化,同时用国内市场特有的海量数据和应用场景构筑壁垒。
金沙江创投董事总经理朱啸虎接受采访的时候说:
“说实话在AIGC这波,中美差距还是非常大。美国是在底层大模型,投入越来越大,像OpenAI说十万张GPU卡连在一起。在中国是不可能的。
美国你看AI的应用创新,说实话只有两条路,一条要么非常、非常薄,因为底层大模型太强大了,所以上面叫套壳应用。另一层是看上去很伟大,但肯定走不通的,像Pika。这种目标很伟大,AIGC生成视频、电影。但这条路可能在几年之内都看不到走通的可能性。
中国反而相反,中国在“当中”的多一点——底层大模型不够强大,我在上面加的东西可以比较多。我在上面做增值服务,为客户马上能变现。这种在中国有机会。美国这种几乎没有,因为底层大模型太强大了,上面创业公司能做的很少。中国套壳,现在肯定没人看的。在中国也套不了壳,因为大模型本身功能也就那样,必须在上面有value add。
(中国)整出200多个大模型有啥意义呢?没啥意义。但在应用层有很多创新。中国在数据和应用场景上是远远超过美国的。”
持有相似观点的有李彦宏、周鸿祎、王小川等一干正在大模型之路上奋进的大佬们。
李彦宏说:“百模大战是对社会资源很大的浪费。不应该去卷大模型,而应该去卷应用,只有应用才真正直接创造价值。做出上亿用户使用的应用时,大模型的真正价值才得到体现。
大模型这么火,它到底能产生多少实际的价值,过去一年我最主要就在思考这个问题,ChatGPT大火的时候,别人问我怎么看,我当时就说,现在这个火还有点早,真正什么时候我们能够做出上亿用户都在使用的应用的时候,才是它真正的价值得到了体现。”
周鸿祎还指出:“选模型已经不是问题,而且都免费。去年大家都飙着OpenAI,都想搞通用大模型,想垄断全世界。但2024年的目标变了,是大模型如何找到自己的应用场景,而最大的应用场景就是跟各行各业结合,因为和各行各业结合才能带来工业革命。”
他还说:“面向传统的ToB、ToG的市场,是大机会。做企业级大模型,在企业内部做私有化部署,是中国大部分企业的需要。要选择跟企业业务深度结合的场景,也就避开了跟通用大模型的直接竞争。2024年是人工大模型的场景之年,如果找不到场景,光是在做大模型,有点像拿着锤子找钉子,如果找不到钉子,这个锤子是没有用的。”
王小川认为,大模型开发需要强大的算力、财力和智力支持,所以“未来的两年时间内,更多的是加入一家(大模型)公司,能够获得平台级的支持,这样做超级应用成功的概率要大很多。”
他认为,新进入企服行业的创业者还有两个机会:一是借着大玩家转向困难的机会,快速反应推出它们没做到的新产品形态;二是直接交付最终服务,比如呼叫中心就不要让人家用你的软件,而是直接让话务员下岗。
二者对技术判断的一个根本分歧是,开源模型会不会有一天,缩小甚至拉平与闭源模型的差距?技术路线的观点是,绝对不会,差距只会更大。市场路线的观点是,一定会,那意味着你今天做闭源只会处境尴尬——世界观的迥异,让双方对自我的判断都深信不疑。
朱啸虎就直接发问:“GPT-4你要不要投入做科研?你做GPT-4科研至少砸四五千万美金。关键是万一你砸了四五千万美金做出来,别人开源了呢?你不是全白砸了?这个是很扎心的问题。现在中国大部分公司,有几个敢真的砸钱去研发GPT-4的?”
以终为始,我们的判断是什么?
从投资角度来看,预判大模型的终局是什么样的,才能有助于我们去思考市面上的哪些公司值得看好。从电商平台大战一路看过来(有谁还记得想做平台最后一地鸡毛的凡客吗?),在科技赛道,绝大多数时候轰轰烈烈的“百云大战”“千团大战”,99%玩家是黯然退出,只剩下赢家通吃。
纵观这些年的赢家通吃赛道,基本可以用两个词概括:新平台、新基建。如何理解呢?通常这类玩家,为一个产业提供了新的平台,通过技术变革的方式建立起产业新的基础设施——类似高速公路、水电气等基建,让原有的产业链参与者能够加入到新平台来,享有技术变革的红利。
什么是大模型?第一,顾名思义是规模大,网络参数至少要达到百亿规模(现在英伟达甚至解锁了万亿规模的算力);第二,通用性,是指不限于专门问题或领域;第三,涌现性,即产生预料之外的新能力。大模型的大规模和通用性,决定了其将是具备普适性的“新平台、新基建”,其从一个行业迁移到另一个行业的应用场景时,成本低,易迁移。
可以断言,放在大模型这一赛道,依然将是赢家通吃的终局。
那么,现在“百模大战”的玩家里,谁将笑到最后?大体来分,目前大模型的玩家有两类,一类是大厂拉起的团队,另一类是创业公司。这里可以有把握地说,在这个百模大战中,大厂优先。
我们可以参考另一个行业云计算的发展走向。当年云计算兴起的时候,国内也出来很多创业公司玩家,但最终市场份额集中于大公司。根据IDC发布的2022年全球云计算IaaS市场追踪数据来看,市场份额TOP10玩家都是中美的大公司,包括美国的亚马逊、谷歌、微软、IBM,中国的阿里、华为、腾讯、百度等。
后面我们会进一步分析。不过这里先看看制约大模型的三个要素:数据、算力和算法。
先说数据。
数据是大模型发展的压舱石,除了互联网、物联网数据之外,老百姓生活生产中产生的数据都是未来大模型要提升智能水平的必要数据源。目前,数据壁垒是真实存在的问题。高质量的中文语料数据对于创业公司来说是个很大的挑战,数据的积累需要时间和经验。对于那些常年累月通过搜索等多个互联网、物联网应用积累起数据的大厂来说,可以说一开始就领先了至少几个身位。
给AI喂下什么质量的数据,才能训练和迭代出什么水平的AI。
目前国内“百模大战”中诸多大模型开发者,是基于Meta开源的LLaMA等一系列开源社区的基础代码,来进行二次开发的。其能力差异主要由语料库差异和少量微调等结合而成。
再说算力。
通用大模型需要24×7连续训练,调度多个算力中心、协调资源,以云的方式提供智能服务,这对算力有很大的需求。随着参与大模型训练的企业越来越多,用来训练大模型的数据量越来越大,对推理的要求也越来越高,大模型的应用会越来越广。这就意味着,大模型公司必须拥有稳定的、靠谱的、能保障安全运转的算力。这显然利于在云计算深耕布局的大厂。
当年云计算创业公司,面临大厂的夹击,窄缝求生,专攻一个垂直行业的云计算市场——比如游戏行业。但是,游戏行业遭遇监管重创的时候,云计算需求也大大降低,这导致该云计算创业公司的业务不稳定,反过来又影响使用该家公司服务的客户。
这也是为什么大模型和云计算同样是赢家通吃的原因之一——大玩家能够提供更为稳定、可靠的服务,成为客户的优先选择。
最后说算法。
大模型最底层的竞争力来自算法。算法需要庞大的高级人才和长期积累。
为什么现在看起来有很多的公司做大模型呢?因为现在有开源的大模型和很多公开的论文可供参考,所以起步上会简单很多。但要做好大模型的门槛还是高的,像现在的GPT-4没有公开后续技术细节,国内很多大模型就很难继续发展。
越多的应用场景,能形成越多的反馈,从而对模型进行更好的调整;而模型也因此产生更多的经济价值,可获得更多的资金投入,反哺自身。
需要指出的是,大模型高昂的训练成本和研发投入,让众多入局者望而生畏。有企业家断言, 每年5000万到1亿美元的花费,只是千亿级大模型训练的入场券。某个创业者高调宣布投资5000万美元入局大模型时,就有分析师发朋友圈直言说:“5000万美元够干什么的?大模型训练一次就花500万美元,训练10次?”四个月之后,该创业公司被收购,出局。
当年共享单车也是百团大战,打得头破血流,结果笑到最后的是美团。无他,资金充足。在以年计、甚至以十年计的竞争中,这种重资本重研发的赛道,毫无疑问是利于大公司的。
这是一场漫长的、看不到终点的长跑,竞争的韧性将左右最后的结果。
以赢家通吃的终局为前提下,我们判断是,在几家通用大模型的基础上,将有多个领域的垂直大模型。龙头企业研发通用+中小企业研发应用,这种模式成为破局关键。
在B端领域,营销、客服、数据分析、财务、人力等各个业务领域的企业,很多都在全速接入大模型。从目前的进步来看,虽然还存在各种工程上的问题,但效果是实实在在的,的确有很大的潜力变革原来的整个产品和业务体系。
大型支付公司Klarna披露,它的AI客服现在已经能胜任700名员工的工作。这个AI客服由OpenAI提供支持,处理客户的各种咨询,支持多语言,能够直接处理退款和退货的请求。Klarna表示,在短短一个月内,AI助手就完成了700名全职客服的工作。
到目前为止,它已经进行了230万次对话,占公司所有客户服务对话的三分之二。它的客户满意度得分与人工客服「不相上下」。而且,它在解决客户请求方面更准确、更快速。解决请求的平均时间从11分钟降至2分钟。
“场景优先,数据为王”,则将是提供服务的大模型应用公司的核心竞争力。