认知与技术领航,OPPO何以让AI更进一步
AI手机到底应该是什么样?面对这个问题,或许有不少朋友会下意识地看向iPhone,“苹果是怎么做的”也俨然成为了手机圈一个风尚。只可惜苹果在AI领域起了个大早、赶了个晚集,就给了Android阵营先人一步的机会。在刚刚举行的ODC24上,OPPO方面向外界展示了成为AI手机旗手的底气。
用AI来为手机赋能并不新鲜,自2011年的苹果Siri就已开始初见端倪,再到2017年、2018年,随着自然语言理解(NLP)技术的“白菜化”以及神经网络处理器(NPU)出现,国内厂商也扎堆做起了智能语音助手,并成为当时手机厂商在新品发布会上的必讲环节。
只可惜仅用了短短两年时间,应用场景有限、效率不高等问题的陆续出现,使得用户主动冷落了智能语音助手。直到2023年,随着生成式人工智能的出现,手机AI又有了新的故事可讲,此次OPPO就在ODC24上用系统级AI重构了AI与操作系统的关系。
OPPO软件工程事业部总裁唐凯在此次活动中就提及,AIOS有三个阶段,分别是应用AI化、系统AI化,以及AI即系统。过去,AI在手机操作系统里只能锦上添花、局限于单点功能,比如曾经的智能语音助手,就只擅长处理诸如定闹钟、打电话、打开App等简单操作,面对复杂指令时就会陷入“鸡同鸭讲”的死循环。
显而易见,曾经作为手机里AI元素集中体现的智能语音助手,当时就只能起到一个尝鲜的作用。而在此次ODC24上亮相的“超级小布助手”则是嵌入操作系统底层、深度整合的系统级体验,AI功能不仅仅体现在“超级小布助手”上,而是渗透到了系统的各个层级。
例如,OPPO推出的“一键问屏”功能,就是多模态交互能力的结晶,不仅要“看”、还要“听”,然后根据用户的语音和视觉反馈来做出反应。这背后需要OPPO的AI平台调用视觉模型、音频模型,以及大语言模型协同工作,从而实现图像和音频识别与自然语言输出。
不仅如此,OPPO借助SenseNow框架让一键问屏实现了“边看边说”的功能,并且这可一点都不简单。要知道多模态大语言模型有一个重要的课题,即怎么对齐不同文本、图像、音频等不同模态。由于不同模态获取的特征差异巨大,且模态复杂导致出现过拟合现象,最终会让多模态模型的效果不如单模态结果。
OPPO此次推出的SenseNow智慧框架,就凭借强大的多模态直觉交互能力,能做到在对文本、图像、音频解码生成的同时,进行跨模态的特征同步。用OPPO方面的说法,用户在浏览内容时可以立即询问,AI也能实时响应,而不再需要在不同模态之间来回切换操作。
将各个模态的信息和交互整合到一起,OPPO显然有着更多的意图。用OPPO AI中心产品总监张峻的话来说,“我们的目标是让AI助理像真人助理一样,能够'边看、边说、边做'”。从最初的单线程进化到多线程,OPPO不是为了做AI、而打造系统级AI,而是让AI提升用户的体验,塑造一个交互和智能随心,专属陪伴、安全可信的个人化助理。
不过想要让AI助手更像真人助理,单纯整合不同模态的大模型是不够的,AI智能体才是关键。一键问屏功能尽管优秀,但也不是十万个为什么,真正能让用户感知到AI确实有用,还得能自主执行任务的AI智能体。在ODC24上,OPPOF就已经展示了用“超级小布助手”订机票的DEMO,但他们也坦言,要实现完全自动化的操作确实有门槛。
以订机票为例,据张峻透露,技术上我们已经具备了一些能力,例如意图识别和应用唤醒,现在小布就支持说“给某某在微信里发个红包”,但要进一步实现“完全自动预订”还需要解决用户偏好问题,比如选哪家航空公司、什么时间的航班,这些就涉及到用户的信任和个性化理解。
OPPO方面希望AI能够逐步增强对用户偏好的理解、加强AI智能体的记忆能力,从而让每一个“超级小布助手”都对它们的主人了如指掌。尽管AI智能体的记忆力固然重要,但更重要的是行动力。对此OPPO方面也展望了AI手机的未来,无论是传感器的布局、还是芯片平台都会进行相应升级,以支持系统级的AI功能。
纵观此次ODC24,OPPO要表达的并不是重做一个“小布”,而是希望以智能手机作为计算平台、用AI来赋能用户的科技生活。
【本文图片来自网络】