端侧 AI 的硬件大潮袭来前,更应该了解特斯拉的成功故事

OpenAI 的神奇在边际递减。Sora无法涌现真实世界的物理法则,成本和效用没法商业闭环;o1被推测的CoT+RL 路线展现了强大的数学推理能力,但依旧争论不停,跟随者寥寥;GPT-5听不到好消息同时,坏消息先来了,OpenAI的高层团队和核心技术骨干几乎全部出走。

AGI 的终极远景固然吸引人,在历史级的天量资本投入和期待下,OpenAI 似乎都架不住,要从非营利性组织向正常企业「转型」。

大模型从「中枢」走向「边缘」

今年以来,有一股明显的市场力量,驱动大模型向PC、手机、汽车向这些边缘端渗透,这些恰好也是人们工作、学习、生活、出行,最高频使用的终端。

一个普通用户每天产生的文本数据、图像数据、声音数据,散落在各个终端,如果这些数据推送给大模型交互、处理,可以极大地提升我们工作学习的效率,带入更便捷和更高质量的生活。

比如AIPC,有了大模型GUI Agent,可以做到用户指令生成屏幕操作。大模型可以自动进行工作邮件和会议快速总结,读取经营统计数据,瞬间转换成markdown表格,长图文在正确的提示词交互下,快速生成指定汇报主题的PPT。

AI Phone 相比AIPC,多模态数据和应用为丰富。智能手机有10多种不同种类的传感器,位置GPS、摄像头cmos、加速度、气压计、麦克风阵列,手机能调用的App种类和数量也极为丰富,大模型被封装成更高权限层级的个人助手,融入手机OS,能实现自动化智能操作和高效交互。

智能汽车更进一步,各类传感器数量高达数百个,可以控制的权限和实现的更复杂。智能汽车交互方式多样,频次多、粘性强、多模态数据规模大,大模型在这种复杂传感器、多种交互和功能、融入了人际互动的移动空间,天然能够重新组织、协调、梳理、关联,将其整合成为一个高度智能的服务整体。比如通过语音和汽车交流,智能座舱基于大模型可以自动制作、控制、定向生成符合用户情绪偏好的音乐、氛围灯、影视内容,创造超级个性化的舒适智能空间。

从正常的商业视角审视,把最高频的三个消费电子让大模型接管或重铸,想象力太太太大了。大模型公司有概率上演,当年苹果和谷歌替换诺基亚、摩托罗拉,这种生态位切换的故事。

特斯拉的故事,给了一点启示

当一种新的、截然不同的计算需求和设备形态出现的时候,同类的终端厂商和上游的芯片厂商不一定能最快反应过来。

举个离我们最近的例子。今天风光无限的 Elon Musk,全民偶像、超级极客、世界首富,助他真正登上神坛,是其创立的特斯拉改变了百年汽车工业。Musk掌控下的特斯拉,早在2014年就发布了HW 1.0,即特斯拉Hardware Platform ,电动汽车中用于自动驾驶功能的计算和传感系统。

特斯拉电动汽车的魔力,可能并非大胆采用了一系列眼花缭乱的、汽车巨头不敢尝试的“新技术”。一体化压铸、线控底盘、松下动力电池、灵感来自服务器分级管理的BMS电池管理系统,这些都可以被其他厂商快速模仿并掉价,但从2014年的HW 1.0升级到2024年的HW 4.0,目标直指Full Self-Driving,FSD,它可没有容易被模仿和追赶了。

2018 年初,特斯拉深陷产能危机、面临生死考验时,马斯克坚持研发 “基于大规模神经网络训练的全自动驾驶方案”。

凝视深渊的马斯克,在2019 年4月发布了 HW 3.0 硬件,两颗 FSD 第一代自动驾驶AI计算芯片,纸面算力7倍于当时英伟达车端智驾芯片 Xavier。

车身分布几个分辨率并不高的摄像头,配合在车端本地运行、实时数据处理的智驾芯片,以及不断上传到云端服务器的驾驶数据训练神经网络,当特斯拉发展到 FSD v12的时候,迎来了“端到端”的突破::一端输入摄像头等传感器捕捉的数据,另一端输出复杂路况环境下的自动驾驶。

端到端的神经网络,直接从大量真实的车辆驾驶、转向、加速减速踩踏板、倒车、泊车等操作车辆的数据中学习,不是穷尽各种可能的驾驶路况编写固定的规则和决策链路,而是在神经网络的“黑盒”中直接输出开放式环境下的驾驶动作。FSD v12 中,30 万行规则代码被减少到2000 多行,不到原来的 1%,原有的“固定”规则不复存在。端到端方案的本质不同在于,摄像头等传感器获得的原始信息没有经过一环一环预设的、不同模块的过滤和处理,而是直接传递到神经网络,输出驾驶“决策”。传感器信息的无损传递,模型从数据学习到更多的驾驶关联和隐层信息,各种复杂场景不需要一一编写规则,从而提升真实开放环境下的自动驾驶能力。

训练神经网络,学会像人类一样的开车。这种底层能力的领先,一整套方案的构建,传感器分布,视觉识别算法,Jim Keller操刀的自研终端智驾芯片,Andrej Karpathy主导开发的大规模自动驾驶神经网络,还有多年实际运行大量人类司机上传的天量驾驶数据,短时间内,是不可能有其他厂商能够进行一一复制。

大模型上端,被忽略的东西

电动化、电气化架构容易追赶,特斯拉把电动汽车另一个竞争层次,智能化中的自动驾驶,带到了一个新高度。早在2014年就推出的HW1.0,这种远见,从今天的视角来看,非常罕见。

因为下游任务和需求的变化,传导到上游厂商,一般存在一个时间差。以上游构成智驾系统最关键硬件的算力芯片来说,设计专门的微架构,推出专用芯片,通常情况下,一定是巨大的市场驱动。在产品还没有跑出一个巨大的市场,没有需求验证的情况下,敢重构一个体系,并且积累先发优势,直到今天特斯拉无法复制、难以撼动。

特斯拉的发展故事,对于今天的大模型上PC端、手机端,依然有很强的借鉴意义。

今天AIPC、AI Phone的热潮,大模型融入最高频消费电子终端,本质是改变了什么?又需要提前布局,在什么层面进行竞争?

大模型运行在端侧最大的优势,有的人说,是数据本地处理,隐私和数据安全。但是云端的能力明显更强、更全面。隐私安全和能力更强怎么取舍,现实情况,消费者更愿意让渡隐私换取方便。除非那种对数据安全有极高需求的垂直行业。

不依赖网络和云端算力的真正优势,可能在于多模态的感知在终端本体实时进行、实时处理,当手机、AR眼镜、机器人需要大模型常驻,服务即时响应,端侧模型的不可替代价值就显现出来。你不可能等着图片、长文本、视频、声音上传云端,推理计算,再返回结果,有两次的网络传输延迟。

在消费者日常高频请求、高频度推理的时候,调用设备自身的算力,几乎没有成本。在云端每进行一次推理,完成一次任务,它的消耗却不能忽略,如果云端模型有天量的用户,也意味着天量的算力储备、电力消耗、带宽需求,用户量和交互请求的增长,服务器集群也要跟着扩建。

并不是所有的任务都需要调用云端的强大能力。压缩在端侧的小模型,随着模型能力发展,应该处理绝大多数高频任务和请求,而且On-device LoRA,几乎等同于只懂你一人、只服务你一个人的大模型。

端侧模型的趋势不可阻挡。端侧模型always-on的运行需求,已经开始主导硬件的演进。来自行业一线的基本判断是,“大模型在端侧的落地,内存大小、带宽的限制超过了算力限制。”算力可以很大,但数据会成为瓶颈,芯片一定要和算法做联合优化。

端侧模型厂商、芯片厂商、终端公司,最近有一个明显的趋势,它们在共同优化端侧模型在各种终端的运行。

之前,以云端大模型见长、主走B端的智谱,下半年开始瞄准AI Phone、AI PC,在C端的AI 硬件上动作频频,官宣与中国三星合作,开启与多家芯片公司的协作。同属清华系今年年初开始All in 端侧模型的面壁智能,在完成了跟MediaTek最新一代旗舰移动SoC天玑9400的端侧模型联合调校之后,再与英特尔协作,两家公司进行MiniCPM模型在酷睿Ultra 二代旗舰芯片的部署支持、适配优化、计算加速。荣耀、vivo这些终端品牌接连发布自研端侧模型和跑在上层的应用。

端侧模型和底层算力芯片,模型层和算力层的打通意义在于,终端推理的性能优化至关重要,经过优化的推理性能,以及芯片微架构的改进,可以较未经优化的原始性能提升数十倍。一个案例是,面壁MiniCPM在今年9月份这次和英特尔芯片的适配,相比2月份的“首次”,仅隔半年,提速169%。

现代的主流计算有三种体系,CPU、GPU 和ASIC思想下专门的NPU。从软件编写的角度看,CPU在通用性支持复杂指令和逻辑方面最强,高效率编译的开发工作量最小。GPU在硬件上比CPU更简单,数千个针对单一任务的并行处理单元,线程最多,但是软件编写更难,CUDA就是英伟达的长期耕耘才铸造的高效率GPU程序开发壁垒。而AI计算加速,Transformer原生优化的微架构,它需要非常大的矩阵乘法器,却是少得多的线程来做高负载的数学运算,它的编译难度是最大的。

大模型上端,早早着手硬件架构的演化,发展出在内存、数据处理带宽、更高编译效率的芯片架构,不仅仅是模型的压缩和性能更强,算力芯片和模型的联合优化,谁能提前布局、重视、乃至重构出一套体系,谁的胜算可能更大。

最后还是举特斯拉智驾的例子。直到今天,发展端到端智驾系统各家厂商使出了浑身解数,打造智能汽车这一的关键能力,但是底层的智驾芯片厂商,针对端到端还没有能拿出高算力、高带宽、适用专用算法的AI计算架构,主要动作依然是在传统架构下,优化制程工艺、提升AI算力。

如今国内车企主流使用的智驾芯片NVIDIA DRIVE Orin发布于2019年,地平线的征程5芯片发布于2021年。专用架构的AI芯片相较于通用芯片几乎是碾压式领先,若能基于端到端大模型优化和设计芯片,紧跟算法和模型的变化,必然能够推动端到端技术的进步和领先。

底层芯片厂商迟迟没有推出针对端到端大模型设计的芯片,在于端到端大模型真正爆火,还是特斯拉FSD Beta V12.3版本示范的。这种全新思维和体系的智驾系统,端到端大模型仍处于落地早期阶段,对于行业上游的底层硬件厂商还没有起到深刻影响。

等上游芯片终于推出了高效率的端到端智驾芯片,追赶上FSD,这个时间差之内,特斯拉新的FSD芯片和积累的大量人类驾驶数据训练的模型,恐怕又甩出追赶者一大截了。

很难有人能够长期保持技术领先,洼地终究会被填平。但是提前构建一个体系,发展生态的好处在于,你在这个体系下积累了先发优势,过去智能手机时代是App,大模型上端时代,是专用Transformer的芯片的计算加速、模型编译适配、数据和应用踩动的飞轮,时间积攒了强大市场推力,谁能从洪荒中觉醒,率先创世,谁可能成为新一代的巨头。