GPT-4o登场!实时语音视频交互震撼全场 或推动AI应用打开商业化空间

北京时间周二(5月14日)凌晨,美国人工智能研究公司OpenAI在线上举办了“春季更新”活动。OpenAI在活动中发布了新旗舰模型“GPT-4o”,“可以实时对音频、视觉和文本进行推理。”据介绍,新模型使ChatGPT能够处理50种不同的语言,同时提高了速度和质量。

GPT-4o是迈向更自然人机交互的一步,与现有模型相比,GPT-4o在图像和音频理解方面尤其出色。GPT-4o可以在232毫秒内对音频输入做出反应,与人类在对话中的反应时间相近。在录播视频中,两位高管做出了演示:机器人能够从急促的喘气声中理解“紧张”的含义,并且指导他进行深呼吸。开源证券发布研报称,国内AI多模态模型不断跃迁,或持续赋能IP开发、影视、音乐、教育、营销等领域降本提效,拉动对音视频语料的需求,并衍生全新变现模式,建议继续布局多模态AI应用。

据财联社主题库显示,相关上市公司中:

值得买的“AI问答机器人”将采用对话形式与用户进行交互,用户只需通过自然语言描述自己的购物需求或问题,机器人即可智能分析并给出相应的购物建议或链接。

奥飞娱乐在互动易平台上表示,目前其持有光年无限5%股权,光年无限有自己的AI对话机器人产品——图灵机器人开放平台。公司上线AI对话小程序“喜羊羊与灰太狼+”,定位儿童用户,提供亲子陪伴体验。