仰望星空:当一个手机品牌投身大模型
2018年6月,凭借AlphaGo一鸣惊人的DeepMind低调地发表了一篇论文,描述如何训练人工智能玩游戏。
论文发表半年后,DeepMind就携AlphaGo的继任者AlphaStar实操了一把,在《星际争霸2》游戏中以5:0的比分干净利落的送走了人类玩家、德国人达里奥·温施(Dario Wünsch)。
和下围棋不同,在《星际争霸2》这类即时战略游戏中,玩家必须时刻针对几十上百种情形迅速作出判断,没有围棋比赛里的思考时间,这对AI算法的设计者来说是个巨大的挑战。
AlphaStar的神经网络伴随游戏运转
DeepMind训练AlphaStar的同时,一家中国公司也在尝试让AI学会打王者荣耀。
2017年,vivo在内部组建了一个AI研究团队。和大多数被AlphaGo惊醒的科技公司一样,vivo当时对AI的定位是“必须要做”。但作为一个手机品牌,用AI做什么,怎么做,并没有先例可以参考。这也是训练AI打王者荣耀的背景。
在AlphaStar这个项目里,DeepMind和游戏开发商动视暴雪联合创建了一个PySC2接口,可以让算法与游戏核心交互,获取所有的游戏信息。但vivo很难拿到对应的接口,所以他们用了另一种方法——借鉴计算机视觉的方式,让算法反复观看攻略视频,识别游戏里各种各样的物体。
之后,这个研究团队开发了一个由算法驱动的游戏AI,小范围参与了王者荣耀的排位赛。
这是vivo投身人工智能技术浪潮的起点。随后,有了Jovi智能语音助手在vivo手机上的落地,但直到几天前的vivo开发者大会,vivo这6年来的AI成果才迎来一次集中的爆发展示。
除了OriginOS 4和新的智能辅助应用“蓝心小V”,vivo自研的通用大模型矩阵“蓝心大模型”也首次亮相,其中包括十亿、百亿、千亿三个不同参数量级的5款自研大模型,全面覆盖核心应用场景,并在SuperCLUE、C-Eval、CMMLU三个榜单中位列的全球中文榜单榜首。
11月1日,vivo公布自研通用大模型矩阵“蓝心大模型”
在这背后是一个超过一千人的AI团队,70多篇顶级期刊论文以及数百项发明专利。对于vivo来说,这些沉淀和积累的意义并不在大模型本身,而是vivo以一个手机品牌的身份,第一次站在了AI这新一轮的工业革命浪潮的潮头。
大模型只是一个起点,vivo以此开始学会如何仰望星空。
先招1000个人
人工智能迄今为止最重要的里程碑事件出现在2012年,多伦多大学的辛顿团队在10月的计算机视觉会议上介绍了神经网络AlexNet,这个算法在ImageNet图像识别比赛中以惊人的84%识别准确率夺得冠军,人工智能迅速从学术圈向产业界扩散。
AlexNet的论文是计算机科学史上最有影响力的论文之一,目前被引次数已经超过12万,前无古人,后可能也鲜有来者。不过,当时只有少数公司公司开始投资深度学习,并加入了之后的人才争夺战。
AlexNet论文
绝大部分科技公司开始不计回报的押注人工智能,始于2016年AlphaGo大杀四方。相比论文里的数学公式和神经网络结构,AlphaGo横扫围棋冠军带来的冲击力显然更为直观。这也是为什么vivo创始人、CEO沈炜说,vivo真正参与到人工智能浪潮是在“第二个阶段”。
2016年后,vivo的高管团队走访了国内外各大高校,意识到学术界在人工智能上的探索已经远远超越了产业界的想象,一些科研机构已经沉淀了近十年时间。用周围的话说[2]:我们重新认识了这个行业。
周围在vivo工作了14年
周围是vivo的副总裁、OS产品副总裁、AI全球研究院院长,他在2017年受命带队vivo的人工智能研发团队。沈炜对研发团队的要求是,人工智能是所有技术创新的最底层的技术,在未来很长一段时间,vivo都应该“过饱和”的投入。
2016年,“英国选手”AlphaGo战胜了李世石
具体到vivo的人工智能研究院,公司层面的要求是先招满1000个人,但实际上这并不容易。
在2012年之前,对于人工智能的技术路线尚无定论,深度学习只有一个非常小的学术圈,大部分高校甚至没有计算机视觉相关的专业。随着深度学习产业化逐渐落地,人才的供给才慢慢解决。
另一个问题是,对于一个手机品牌来说,“应用人工智能技术”和“把人工智能视为核心战略”是截然不同的两回事。
如果只是将AI应用于手机,那么几乎所有手机品牌都在做这件事。vivo的V系列影像芯片,就设计了专门的AI处理单元,为后期处理算法提供算力。指纹识别和人脸识别等功能性模块,也需要AI算法的介入。
但在“战略”这个语境下,vivo需要思考的是AI之于整个终端业务的融合,以及如何搭建一个与之匹配的人才、研发、组织管理体系。一个功能性模块可能只需要软件团队几个月的开发周期,但“战略”则意味着几十上百亿投资的流向。
在战略方向明确后,vivo紧接着在2018年成立了一个知识图谱团队,图谱团队主要负责数据的建设和管理,以保证数据的规模和质量,从而为公司的业务发展提供可靠的数据支持。
按照周围的说法,数据是AI的基石,在没有明确应用方向的前提下,那就先给高楼打好地基,修成什么样再说。
同一时期,vivo在内部开发测试了很多类似的项目,用来探索AI应用在手机产品上落地的可行性,比如针对听障人群优化通话质量;通过AI修复老照片;代表作则是2018年初随vivo X21推出的智能助手Jovi。
“花了三个月时间,非常紧绷的状态。”Jovi让vivo人工智能一部的总经理肖方旭印象特别深刻,那时团队刚开始组建。Jovi的上线,也给了vivo内部巨大的信心,以至于他们提出了一个雄心勃勃的计划:打造一款真正的“AI手机”。
一款真正的“AI手机”
2018年的vivo X21,主要卖点在于全面屏和屏幕指纹解锁。但在vivo内部,最让人振奋的是随X21搭载的智能助手Jovi。
Jovi的第一个版本里,它可以帮用户提醒机票酒店等行程安排或根据路况提前安排上下班的路线。从技术上来讲,如果用户越多的使用Jovi,Jovi也就越能够理解用户的日常生活习惯,从而变得更智能。
基于这一点,vivo提出了一个非常大胆的规划:Jovi会成为真正的智能助手,扮演手机和App之间的一个重要角色。
Jovi在2018年第一次亮相
这个思路其实与后来AGI(通用人工智能)的构想相当类似,但在当时,它有些过于超前。
一方面,直到现在,手机的硬件系统都难以提供与这个设想相匹配的算力,所以目前大多数的AIGC应用都运行在云端。
更关键的问题在软件。简单来说,神经网络最核心的能力在于“识别”,这也是为什么2012年后产业化起步最快的场景,都与计算机视觉挂钩,比如语音识别、自动驾驶、高速公路抓拍等等。但真正的智能助手需要具备的能力是“理解”,这在当时尚显科幻。
在Transformer出现之前、包括出现后的一段时间里,主流学术界将AGI研究者等同于研究长生不老的民科。2016年,时任谷歌首席AI研究员曾参观过OpenAI,他询问OpenAI的目标是什么,没想到难倒了创始人阿尔特曼,“我们现在的目标,就是......做点好事。”
2016年,Sam Altman访谈马斯克,后者是OpenAI的投资人
因而,Jovi并没有如vivo料想的那般越学越像人,由于无法结合语境理解上下文关系,Jovi的天花板被天然锁死。后来,周围把这段经历概括为“我们满怀激情,然后碰壁了”。
因此在2020年初,vivo迅速调整了策略,将原本试图整合起来的AI功能性模块打散,分散在操作系统的各个功能里。
比如基于深度学习设计的文档扫描、证件扫描、文字提取等一些列解决方案,并将他们集成在相机、相册等系统功能里。vivo当时还做了手机行业首个具备手语识别能力的虚拟人,算法可以识别1200个手语词汇,准确率在80%以上,差不多是汉语四级的理解水平。
2022年11月,vivo在开发者大会上公开了一系列应用成果,并开放了各类接口,让第三方开发者也可以开发各种各样功能性模块。此时,vivo对AI的战略规划也正如开发者大会的Slogan那样:1001个便利。
也就是说在五年时间里,vivo对AI的战略经历了一次重大转向:在意识到Jovi在工程上难以达到理想中的状态后,vivo不再追求打造“AI手机”,而是将重心放在如何利用AI最大程度优化系统和软件的体验。
在这个过程中,周围得到的启发是“做什么”比“怎么做”更重要:“保证赢面的核心不是战斗的本身,而是认知和规划。要很好的回答为什么和做什么,第二个阶段才是怎么做。”
此时,离ChatGPT横空出世,只剩下不到一个月时间了。
Transformer改变了什么
大部分人第一次直观感受AI的震撼是2016年AlphaGo与李世石的对弈,但实际上,推动今天大模型混战的里程碑是一篇名叫《Attention Is All You Need》的论文。
2017年,8位谷歌的计算机科学家在这篇论文中,向全世界公开了Transformer算法。这篇论文目前是人工智能历史上被引数量第三高的论文,Transformer的出现则扣动了此轮人工智能热潮的扳机。
当下的一切大模型,包括驱动ChatGPT的GPT系列,都是站在了Transformer的肩膀上。
目前,8位论文作者都离开了谷歌
在这之前,“教机器读书”是个公认的学术难题。不同于图像识别,人类在阅读文字时,不仅会关注当前看到的词句,更会结合上下文来理解。比如“Transformer”一词其实可翻译成“变形金刚”,但在论文的语境下,任何人类读者都不会这么理解。然而,当时的神经网络做不到这一点。
神经网络的输入都彼此独立,并不具备理解一大段文字、甚至整篇文章的能力,所以才会出现把“开水间”翻译成“open water room”这种问题。
相比后来跳槽去了OpenAI的Ilya Sutskever设计的循环神经网络(RNN),Transformer进一步加强了上下文的能力,同时用位置编码的方式现了并行计算——这一改变大大提升了的训练效率,从而让算法可以处理规模巨大的数据,直接将AI推向了大模型时代。
随着学术圈的探索和验证,Transformer迅速横扫一切牛鬼蛇神,发展成了自然语言处理的唯一解。
对vivo来说,Transformer的出现,让他们和理想中智能助手与“AI手机”的距离一下拉近了。
在“1001个便利”行进的同时,vivo对Transformer的研究和大模型的开发也在谨慎的起步,用周围的话说就是“观察和跟随”,甚至是“持怀疑的态度在跟进”。
一方面,vivo曾给予了深度学习过高的期待,以至于他们在AI战略上出现过短暂的摇摆。同时,大模型与智能涌现的定位更贴近一种技术底盘,也还没有展示出有说服力的应用。
2019年,在AI上反复碰壁的微软遇到人才济济的OpenAI,在投资谈判中,比尔·盖茨其实很直白地对其发展路线表达了悲观,认为Transformer这类大语言模型在过去几年都没什么进展,没人知道它会有什么价值。这与ChatGPT问世后将其类比PC诞生的比尔·盖茨俨然两幅面孔。
当然,微软还是爽快的掏出了10亿美元,阴差阳错的收获了目前人工智能竞赛中最大的战利品。
vivo当时对大模型的看法与之类似,更何况与富可敌国的微软相比,vivo只是一家卖硬件为主的科技公司。
要知道微软塞给OpenAI的10亿美元里,大部分都最终落入了微软云服务部门或英伟达的腰包。vivo曾在官方社区分享过一篇有关AI的文章,下面有用户问:vivo买了多少块英伟达的显卡?
以驱动ChatGPT的的GPT-3模型为例,有机构做过测算,训练一个GPT-3需要至少1024张A100显卡持续运转足足一个月。而A100显卡最便宜的版本也要8769美元。也就是说,什么还没算,先给英伟达交了900万美元入场费。
“观察”、“怀疑”、“探索”——这就是vivo的大模型起步时的关键词。
直到2022年12月,OpenAI沿着Transformer路线开发出了一个名为ChatGPT的应用。2个月后,ChatGPT的全球月活突破了1亿。这个时候,周围意识到可以“All In”了:
“All In的意思就是,在战略上唯一的、完全的选择了它。”
为什么是五个
手机是全球高科技成果的结晶,但手机或消费电子公司的成色其实更加偏向制造业。
比起在实验室里研究高精尖的技术,消费电子公司的日常更多是与供应链公司讨论工艺和生产流程,反复权衡成本和库存继而确定零部件的采购方案,和全球各地的驻场工程师沟通项目进度,以及斥巨资购买新的生产设备、然后送到并不属于自己的工厂。
这也是苹果的核心能力:苹果每年向代工厂派去的驻厂人员达百人以上,涵盖物料、研发、采购、生产管理、售后等所有和产品相关的部门,以确保出品时效性。这些驻厂专家在工厂里都担任核心职位,直接把控了生产节奏。以此组成的复杂系统创造了一个21世纪的日不落帝国。
作为同行,苹果是vivo内部反复研究的对象,iPod则是一个样本。vivo的内部研究文档里有这样段句话:
乔布斯设计了一种新的iPod与iTunes软硬件一体的模式,让消费者能低价享受正版音乐,同时可以自己制作音乐专辑。iPod的新意义是,它已经不仅仅是一台数字音乐播放器。
iPod上市之前,美国风行的数字音乐播放器是Rio,而iPod迅速后来居上。iPod并没有独一无二的尖端科技,但苹果利用庞大的供应链网络,创造了独一无二的用户体验。
Rio MP3
这也是为什么ChatGPT出现后,vivo对生成式AI的态度迅速从谨慎观察变成了坚定投入:相比新技术的开发,手机厂商更注重如何将新技术应用于终端产品,并带来更好的用户体验和附加值。ChatGPT像AlphaGo一样,直观的展现出了大模型的应用前景。
类似的思考也决定了vivo作为手机品牌在大模型开发商的差异化路线。11月1日,vivo在2023开发者大会上正式推出了自研通用AI大模型矩阵:蓝心大模型BlueLM。这个矩阵包含十亿、百亿、千亿三个参数量级、共5款大模型:
·十亿级:70亿蓝心大模型与10亿蓝心大模型;
·百亿级:700亿蓝心大模型;
·千亿级:1300亿和1750亿大模型。
为什么要做五个大模型,周围有一个很容易理解的解释:“如果只用运行在云端的千亿级大模型,虽然性能足够,但由于网络连接延迟,用户问个天气要两秒钟才能回答,这个体验就太差了。”
云端的成本也是个大问题,按照vivo在国内的3亿用户计算,如果每天用10次,一天的运算成本就轻松超过3000万元。
如果完全将大模型放在手机上运行,由于能耗和性能的限制,能够支撑的应用又非常有限。因而,相比其他应用领域,手机是大模型最难落地的场景之一。
另一个考虑则是隐私,如果大模型能够完全在终端上运转,那么信息就不会不上传到云端。而云端大模型意味着,个人信息肯定会通过网络上传。
vivo还公布了自研的蓝河操作系统
因此,vivo的思路是让端侧大模型承担一些相对简单的应用,比如会议的总结文档;千亿级的大模型可以承担需要逻辑推理能力才能实现的应用。SuperCLUE近日发布的中文大模型10月榜单里,vivo自研大模型以70.74的总分位列总排行榜第四,在国内大模型中排行首位。
和大模型一起发布的是OriginOS 4,搭载了全局智能辅助系统蓝心小 V,支持语音、文字、拖拽三种交互模式。和当初的Jovi相比,vivo离自己预想中的“AI手机”已经非常接近了。
仰望星空
2017年vivo押注AI还有另一个大背景,中国手机市场录得多年来的第一次下滑,沈炜带着公司一群高管去西藏走了一圈,“在两三千米不缺氧,落后还可以追赶。现在到了五六千米,一旦哪里不舒服或缺氧,犯个小错误代价就很大。”
一边是趋于饱和的市场,一边是孕育中的技术浪潮,随之形成了一家科技公司必须要面对的焦虑。这种叙事的经典结构并非鼓足干劲孤注一掷,而是充满着迷茫、怀疑和摇摆不定。
2012年,如日中天的Facebook制定了一个雄心勃勃的计划:开发一部Facebook品牌的手机,拥有自研芯片和操作系统。
时值iPhone 4销量即将破亿,Facebook的移动化转型却难言顺利,全公司懂iOS开发的程序员只有5个。这让扎克伯格如坐针毡,他认为Facebook想要在数字世界占据主导地位,就必须掌控自己的移动操作系统,继而主导自己的移动设备。
当时,Facebook手机的操作系统软件由内部完成,芯片设计交给了英特尔,富士康已经做出了工程样机,非常超前的搭载了曲面屏。然而,项目最终被废止。这个项目在当时被严格保密,几乎没有任何媒体报道,就连公司内部有传言时,扎克伯格也会予以否认。
直到《Facebook:The Inside Story》这本书上市,这段经历才公之于众。
在面对人工智能的技术浪潮时,vivo的步调与当时的Facebook有很多相似之处。从2017年组建第一个人工智能研究团队算起,长达6年的探索不乏崎岖和挫折,也有包括商业化也应用落地在内诸多待解的问题,但相比昂贵的投资,置身事内的勇气更加珍贵。
事实上,面对前沿技术的发展,绝大部分的公司的脚步都是在怀疑中探索,在迷茫中深入,先坐上牌桌,再考虑之后的问题。
这不是一个回肠荡气的故事,却是一家公司仰望星空的身影。
参考资料
[1] DeepMind最强星际争霸AI—— AlphaStar的复现,新智元
[2] Jovi,第二个自己,人物
[3] OpenAI背后的领袖Ilya Sutskever:一个计算机视觉、机器翻译、游戏和机器人的变革者,机器之心
[4] 深度学习算法发展:从多样到统一,国金证券
作者:李墨天
编辑:陈彬
视觉设计:疏睿
责任编辑:李墨天
研究支持:张泽一