微软的Copilot + PC 是革命性产品吗?
2023年3月,微软推出第一款生成式AI意义上的Copilot(副驾驶)——面向CRM(客户关系管理)、ERP(企业资源规划)的Dynamics 365 Copilot。此后,一系列基于原有产品的 “副驾驶”接连发布,令人眼花缭乱:Microsoft 365 Copilot、Windows Copilot、Microsoft Security Copilot、Power Platform Copilot……从命名规则看,主次分明,Copilot是辅助存在。
现在,这场声势浩大的改造运动烧到了PC(个人电脑)本地端。今年5月下旬,在一年一度的Bulid开发者大会前一天,微软定义了PC新形态——Copilot + PC。惯常作为后缀存在的Copilot被提格至前端,是微软对于副驾驶作用前所未有的强调,透露着以人工智能接管PC的雄心。
难言惊艳:技术和硬件的简单演化
首批发布的两款Copilot + PC——Surface Pro 11、Surface Laptop 7,将大模型落地PC本地端,能够实现实时“读屏”、“召回一切”,以及相对常规的文生图、翻译等AI功能。
部分功能让人眼前一亮,但从产品概念及功能形态的角度,其实难言惊艳,更多的是基于现有技术及硬件的简单演化。
根据现场演示,新款PC中的Copilot能够“看懂”屏幕上正在显示的游戏画面,并可基于自身理解实时提供操作建议,这相当于在电脑中内置了一个永远不厌其烦的游戏专家,而且所能提供的建议是开放式的,远远超出了只有固定剧本的NPC(非玩家控制角色)概念。这样的功能确实令人耳目一新,但这是Copilot抢先接入云端OpenAI GPT-4o的结果,本质上其实只是GPT-4o的最新用例。
相比之下,可以召回一切的“Recall”是Copilot 本地原生功能。它的原理是在电脑运行期间,每隔几秒钟捕捉一次屏幕快照,并持续堆积至电脑硬盘,以备你在以后某个时间根据模糊的记忆找到它们。由于有PC本地端大模型的加持,召回的过程超越了常规精准检索,从而更加便捷高效。不过,在产品概念层面,Recall与Windows 过去放弃的“时间线”并没有本质不同,只是实现方式上加入了AI技术。而Mac平台上的部分第三方应用如Rewind,同样也能实现相似功能。
为了将AI能力本地化,微软为Copilot + PC配备了强大的AI芯片——高通骁龙 X Elite和骁龙 X Plus,它们集成了CPU、GPU、NPU三大处理器模块,总算力达到75 TOPS,其中专门用于AI计算的NPU算力即达到45 TOPS,甚至高于竞品芯片的总体算力,比如英特尔去年12月发布的Meteor Lake,提供34 TOPS的AI整体算力。
但这并不是PC设备首次搭载AI芯片,也不是微软首次为旗下PC产品配备AI芯片。去年12月,与英特尔发布Meteor Lake同步,联想已推出两款搭载该芯片的PC产品,而今年3月,微软同样跟进发布配置该芯片的新款PC——Surface Pro 10商用版和Surface Laptop 6商用版。不过,按照微软的定义,两个月前的这两个版本不属于Copilot+PC,因为它们的AI芯片的算力没有达到40 TOPS。
但按照业界的基本共识,硬件性能的差异并不构成AI PC的真正区隔,判断一款PC是否是AI PC的终极标准,是能否提供基于本地端的大模型的AI服务。
市场研究机构IDC在《AI PC产业(中国)白皮书》提出,AI PC的发展是一个不断演进的过程,应分为AI Ready和AI On两个阶段。其中,AI Ready阶段是硬件准备阶段,主要对应PC端芯片计算架构的升级以及由此带来的AI算力的提升,主要体现为集成了 NPU 计算单元的 CPU 陆续推向市场,以更高的能效比实现计算速度的提升,并在运行过程中具备更高的稳定性和可靠性,为大模型落地本地端打下基础。AI On阶段是大模型开始在PC本地端运行,并与云端大模型高效协同,在核心场景提供划时代的 AI 创新体验,甚至能够基于个人数据和使用历史,在边缘私域环境下实现个人大模型的微调训练,最终实现个性化的AI服务。
Copilot + PC将大模型落地至PC本地端,突破了以往PC仅能通过云端大模型获取AI服务的局限。这对于微软旗下PC产品而言,无疑是划时代的。但这同样不是大模型首次落地PC本地端。今年4月,联想发布6款AI PC,其中内置了基于阿里巴巴70亿参数大模型开发而来的个人助理“联想小天”。这些产品在微软发布Copilot + PC前一天已正式开售。
但与联想作为全球第一大PC厂商内置单一大模型不同,微软作为全球第一大PC操作系统厂商,选择的则是多模型方案,Copilot + PC内置的大模型数量多达40个。这或许才是微软此次重新定义AI PC的最大看点。整机厂商与系统厂商被认为是推动AI PC演化的关键力量,两者在落地大模型范式上的分野,或将产生深远的影响。
背离梦想:40+小模型的拼盘
在保护个人隐私之外,加速大模型从云端落地终端的另一大驱动力是成本。云端大模型普遍千亿级的参数,意味着高昂的推理成本。将推理环节下放至终端,则相当于让终端用户平摊成本,其中包括服务器成本和电力成本。
但落地终端同样要考虑成本,其中真正的难点,在于如何在用户可接受的硬件价格之内,实现具备吸引力的AI体验。这就要求在保证大模型AI能力的前提下,尽可能缩减模型的参数规模。目前市面上有两大实现路径,其一是通过萃取将大参数模型压缩,比如联想的方法是,先对大模型中的关联子结构进行识别,并评估其重要性,然后按照重要程度进行裁剪和量化。高通此前将文生图大模型Stable Diffusion装进手机端,也用了相似的方法,高通CEO安蒙(Cristiano Amon)认为,如果模型训练良好,准确率就不会随参数减小而同等幅度下降。
另一种方案是从头训练小模型。为了在小参数体量的情况下提升模型的能力,不同的科技公司采用了不同的策略,比如Meta选择“加量”,持续打破大模型训练的 Scaling Laws,给模型投喂了更多的数据,在训练80亿参数的Llama 3 时,Meta把训练数据提升至15 万亿 Token(15 万亿个词),作为对比,Google 70 亿参数的 Gemma模型用了6 万亿 Token。
而微软则更注重“提质”。去年6月,微软首次发布了轻量级语言模型Phi-1,并提出了“教科书是你所需要的一切”(Textbooks Are All You Need)的数据筛选原则,据媒体报道,它甚至使用GPT-4 生成的高质量数据来训练自己的小模型。今年4月,微软将这款语言模型更新到Phi-3,按照参数规模分为三个版本,分别是38亿的Phi-3-mini、70亿的Phi-3-smal、140亿的Phi-3-medium。5月份,微软在Build大会上又发布了参数量为42亿的Phi-3-vision,该版本是基于语言模型Phi-3-mini开发的多模态模型,增加了执行图像任务的能力。
但微软并未将这四个版本直接用于Copilot + PC,而是另外开发了一个轻量级模型Phi-Silica,用于新版PC的智能搜索、实时翻译、图像生成和处理等任务。而Phi-Silica只是Copilot + PC中附带的多达40个端侧AI模型中的一个。
这表明,尽管微软早在去年6月即开始押注更适合终端部署的轻量级模型,而且实现了快速迭代,但截至目前并没有开发出可以独立承担PC端AI功能的小模型,而为了实现微软所认为的AI功能,需要引入多达40个模型。
当然,这并不意味着现存轻量级模型真的没有一款可以独挑大梁,微软选择采用拼盘的模式,或许是希望将关键技术攥在自己手中,毕竟这些模型需要深植于Windows内部,未来将成为其核心。但作为目前市占率高达70%的全球桌面操作系统厂商,微软的拼盘战术,无疑将产生巨大影响。
微软重新定义的AI PC获得了主流PC制造厂商的支持,在微软的发布会上,联想、宏碁、华硕、戴尔、惠普等纷纷响应,宣布推出对应的Copilot + PC产品。首批产品包含20多款型号,将于6月上旬陆续出货。与此同时,微软在Build大会上还推出了"Windows Copilot Runtime"工具套件,支持开发者利用Windows内建的40多个AI模型,催生出全新的应用程序体验。未来随着Copilot + PC逐步放量,一个基于拼盘模式的AI生态也将逐步建立。
然而,这种基于“拼盘”的生态,或许正在背离微软的梦想。在刚刚过去的微软 Build 2024 开发者大会上,微软 CEO 萨蒂亚・纳德拉(Satya Nadella)说,三十多年来,微软对于计算机一直有两个梦想,首先是让计算机理解我们,而不是我们去理解计算机。在发布最新款Copilot + PC时,他又强调,微软做的不仅是可以理解我们的电脑,更是可以预测我们想要什么的电脑。
充分理解进而精准预测的前提,毫无疑问是获取全面的用户行为信息,然后再根据这些个性化的数据对个人大模型不断地进行微调训练。某种意义而言,这需要大模型具备上帝视角,它可以俯瞰用户的一切。但如果是调用多达40个模型来提供服务,那么必然意味着用户的数据信息将散布在40个模型之中,随之而来的则是,每个模型对于用户的理解和预测都将是片面的。
从这个角度来看,微软目前选择的策略,或许只是大模型落地PC端的权宜之计,是在端侧大模型独立性能欠佳的现状下,不得不采用的过渡策略。而随着大模型落地端侧的潮流持续推进,它最终会被取代。但也有可能,它将成为一种范式,从而奠定了AI PC模型端的基本架构。一切还要静等潮流继续演化。