☰

GPT-4o登场！实时语音视频交互震撼全场或推动AI应用打开商业化空间

北京时间周二（5月14日）凌晨，美国人工智能研究公司OpenAI在线上举办了“春季更新”活动。OpenAI在活动中发布了新旗舰模型“GPT-4o”，“可以实时对音频、视觉和文本进行推理。”据介绍，新模型使ChatGPT能够处理50种不同的语言，同时提高了速度和质量。

GPT-4o是迈向更自然人机交互的一步，与现有模型相比，GPT-4o在图像和音频理解方面尤其出色。GPT-4o可以在232毫秒内对音频输入做出反应，与人类在对话中的反应时间相近。在录播视频中，两位高管做出了演示：机器人能够从急促的喘气声中理解“紧张”的含义，并且指导他进行深呼吸。开源证券发布研报称，国内AI多模态模型不断跃迁，或持续赋能IP开发、影视、音乐、教育、营销等领域降本提效，拉动对音视频语料的需求，并衍生全新变现模式，建议继续布局多模态AI应用。

据财联社主题库显示，相关上市公司中：

值得买的“AI问答机器人”将采用对话形式与用户进行交互，用户只需通过自然语言描述自己的购物需求或问题，机器人即可智能分析并给出相应的购物建议或链接。

奥飞娱乐在互动易平台上表示，目前其持有光年无限5%股权，光年无限有自己的AI对话机器人产品——图灵机器人开放平台。公司上线AI对话小程序“喜羊羊与灰太狼+”，定位儿童用户，提供亲子陪伴体验。

GPT-4o登场！实时语音视频交互震撼全场 或推动AI应用打开商业化空间

相关资讯

GPT-4o登场！实时语音视频交互震撼全场或推动AI应用打开商业化空间