万千气象看上海 | AI大模型与汽车产业融合,人机交互将迎来质变 | 寻找中国经济新动能

4月25日-5月4日,2024(第十八届)北京国际汽车展览会在中国国际展览中心举行。商汤绝影在展会上首次向公众展出了面向量产的真·端到端自动驾驶解决方案UniAD(Unified Autonomous Driving)的道路测试表现,同时还带来了以多模态场景大脑为核心的AI大模型座舱产品矩阵以及全新座舱3D交互演示。

2022年底,商汤及其联合实验室提出了行业首个感知决策一体化自动驾驶通用模型UniAD,并在次年荣获2023年国际计算机视觉与模式识别会议(CVPR)最佳论文。

今年年初,特斯拉开始向部分用户推送FSD V12版本的端到端自动驾驶方案,业内随之出现了越来越多的“端到端”智驾方案。与大部分端到端方案采用由感知和决策两个模型组成的“两段式”架构不同,UniAD将感知、决策、规划等模块都整合到一个全栈Transformer端到端模型,实现了感知决策一体化。

搭载UniAD端到端自动驾驶解决方案的车辆不需要高精地图,仅凭摄像头的视觉感知就可以像人一样观察并理解外部环境,然后基于感知信息,UniAD能够自己思考并自主解决各种高难度的城市复杂驾驶场景。

在北京车展的上车演示中,商汤绝影展示了在复杂场景下UniAD的处理能力:在上海临港无标线乡村窄路上,对向有车驶来,前方有行人在跑步,UniAD判断出前方有足够的空间进行操作,所以在确保安全的情况下,选择快速向左绕过行人然后回到正常行驶路线完成会车。

商汤绝影是商汤集团旗下聚焦智能汽车业务的子公司,落户在上海临港。公司通过构建驾-舱-云三位一体的通用人工智能(AGI)技术架构,将人工智能技术与汽车产业进行融合。

目前,上海临港新片区作为绝影自动驾驶研发的基地之一,向其提供了包括车路协同等方面的开放场景,帮助绝影推进产品的迭代和技术的演进。

今年的《政府工作报告》将“大力推进现代化产业体系建设,加快发展新质生产力”放在2024年政府工作任务的首位,提出要充分发挥创新的主导作用,同时强调“巩固扩大智能网联新能源汽车等产业领先优势”与“深化大数据、人工智能等研发应用,开展‘人工智能+’行动”。

商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚认为,AI大模型将助推新质生产力的发展,推进AI的规模化产业应用,特别是AI大模型与汽车产业的碰撞与融合。

“大模型给人类社会也包括汽车行业带来的变化主要体现在两个方面:一个是生产效率的提升,另外一个是人机交互体验的质变。”王晓刚在接受界面新闻专访时提到。

例如在智能座舱里,在开发例如驾驶员感知、乘员感知等各类AI功能的时候,包含识别打电话、疲劳分心等多个任务,以前每增加一个功能都需要投入大量的研发人员去开发。但随着多模态大模型的出现,对于新任务的泛化能力大大提升,无论是提取基于座舱里捕捉到的图像视频,或是问询各种开放式的问题,一个模型就可以解决座舱里出现的多个智能化任务。

在人机交互体验上,随着多模态大模型的出现,系统可以通过人的指令改变自动驾驶的行为。比如在高速路上开车的时候,如果觉得旁边临车道的大卡车有压迫感,驾驶员就可以通过语音指令让汽车和大卡车保持距离。

在输出上也不仅限于能输出驾驶的轨迹、规控,大模型还能够以文字和语言的形式,解释模型驾驶过程中做出的各种行为判断。由此一来,自动驾驶系统就不再是一个黑盒子,将拥有更好的解释性和人机交互的体验。

“汽车某种意义上就像一个机器人,大模型能够让汽车变成一个更加通用的智能体,理解司机与乘客,提供更个性化的服务。”王晓刚说。

通用人工智能和大模型的进化离不开基础设施的建设。随着包括算力、数据规模的扩大,模型的能力才能够持续突破技术边界。

2018年,在上海市政府的支持下,商汤在临港建立AIDC智算中心,目前还在进一步扩大规模。截至目前,商汤已经有45000块GPU,包括12000P的算力,为大模型的研发提供强大的支持。

除了推动集团内部的研发,王晓刚表示商汤将来也会将这些大装置基础设施开放给主机厂及其他生态的合作伙伴,以共同推动通用人工智能、大模型的发展。

仅仅是硬件计算设备的堆砌,并不能将几千块甚至上万块的GPU进行有效连接。王晓刚向记者解释,如果单纯将这些硬件设备连接起来,会发现它只能提升训练效率30%,因为不同的卡和机器之间要进行大量通信、数据的传输还有同步,这些都会大大降低使用效率。并且一万块卡里如果其中有一块卡出现故障,那么整个系统也会频繁死机。

因此,商汤开发了一整套软硬件系统,将整体效率从30%提升到90%,并让整个机器系统可以长时间稳定地运行,以顺利开展大模型研发工作。

在数据方面,除了自身的数据积累,绝影也和主机厂展开了合作。针对车厂自身的海量数据,绝影可以提供大模型训练的工具、基础设施,让车厂对模型进行迭代。

目前,商汤绝影已经服务了30多家主机厂,有大量的量产车型落地。王晓刚透露,在去年绝影交付了40多个车型,今年交付车型的数量可能会翻一倍。

除了智能驾驶,商汤日日新的大模型系列已被应用在智能座舱中。小米SU7就使用了商汤的大语言模型和多模态模型,以提升车辆的智能化体验。目前还有十几家车厂也在这方面和商汤有所合作,一系列的POC(概念验证)和量产项目正在落地。

关于绝影的下一步计划,王晓刚向界面新闻表示,在汽车智能化领域,一方面,绝影会继续推动端到端自动驾驶技术的发展;另一方面也在积极地把多模态大模型应用到自动驾驶领域,希望能做到在不用手动操作的情况下,通过语言交互就能改变自动驾驶的行为。

在车舱里,绝影也会进一步开发基于大模型智能座舱的整体方案,完善座舱大脑。各种视觉、语音、自然语言等等也会被融入到一个多模态大模型中去完成各种功能。

另外,现在自动驾驶和智能座舱还是需要运行在不同的芯片和域控制器上,但随着技术的不断成熟,将来会完成舱驾的融合。这样车内和车外各种传感器的数据也能够更好的打通,带来更快的数据传输和更好的用户体验。由于绝影同时拥有智能驾驶和智能座舱两个业务方向和产品线,所以在推动舱驾融合方面会更有优势。

在更远的未来,王晓刚认为,很多在智能汽车里应用到的技术,也会被应用到机器人的领域里。所以今天汽车的智能化也为将来机器人的发展提供了基础。