通往AI下一个“iPhone时刻”的门票?科技巨头聚首语音交互
《科创板日报》5月14日讯 音频输入反应时间短至232毫秒、能感知人类情绪、能和用户像真人一样聊天——昨夜OpenAI一场发布会,最新多模态大模型GPT-4o的出色表现引发外界瞩目。各家科技巨头们也没有放慢追逐的脚步,AI人机交互,尤其是语音交互,或许将成为新一轮竞争焦点。
据The Information援引知情人士消息称,Meta已建立一个名为“Camerabuds”(摄像头耳机)的项目,探索制造由AI驱动的带摄像头耳机,希望其能识别物体、翻译外语。
此前,Meta已发布了新一代雷朋智能眼镜,内置多模态AI功能。用户戴上眼镜后,说一声“嘿,Meta”,就能召唤出一个虚拟助手,后者能看到并听到周围发生的一切,能描述物品,能翻译,还会搭配衣服。
与此同时,苹果也在进行类似的探索。
苹果即将与 OpenAI 达成协议,或将在iOS 18中引入由ChatGPT提供支持的“聊天机器人”,有望对苹果的个人语音助理Siri带来颠覆性影响。之前公司已被曝正在探索开发带摄像头的AirPods,AI可以使用摄像头拍摄的画面,并通过多模态语音、图像人工智能系统,帮助用户跟踪自己的日常活动,协助人们的日常工作,优化日常作息。
不论是GPT-4o、带摄像头耳机,还是计划ChatGPT的“升级版Siri”,其主要交互形式都离不开语音互动。
而在语音交互这场赛跑中,OpenAI已暂时凭借着GPT-4o领先,这也是OpenAI迈向更自然人机交互的更近一步。华福证券今日报告指出,GPT-4o奠定了AI语音助手基础:低延迟、情绪感知、视觉感知。其中,情绪感知是对语音一维输出模态的丰富,视觉感知能力则可以适配AI手机、AI电脑和AI智能硬件。
在几天前的一场访谈中,Sam Altman曾被问及,iPhone之后会出现什么样的(革命性)设备。“我认为你必须找到一些真正不同的交互范式,才能实现这种设备技术。”Altman说道,“我们会进一步提升(语音功能)。”
在他看来,语音交互是通向未来交互的重要途径,“多模态交互能力非常强大。比如你可以向ChatGPT提问,‘嘿ChatGPT,我正在看什么’或是‘这是什么植物’。”
站在科技的时光隧道回望,从最初不会说话的AlphaGo,到之后“竖耳倾听、张口说话”的苹果Siri与ChatGPT语音版,再到如今的GPT-4o,AI的人机交互正越来越接近人类之间的交流。
对于普罗大众而言,科技巨头们所宣传的庞大训练数据规模、算力需求、参数堆叠,都是难以直观感受到的要素。更低的价格、降低的应用门槛、更自然的交流模式,才是维系着用户最真实的感受与体验的“秘诀”,未来或许也将成为AI之战的决胜因素。