OpenAI新模型GPT-4o有語音助理 能唱歌還可打斷它說話

OpenAI推出更高性能、更高效AI技术模型GPT-4o。美联社

OpenAI周一(13日)发表自家旗舰AI模型升级的新版本,不但速度更快、更便宜,还包含新的语音助理功能,让它更容易使用,而且将免费开放给所有使用者。这是该公司扩大其聊天机器人ChatGPT应用的最新努力,此时正值Google和其他科技巨擘竞相推动AI技术大突破。

新的AI模型名为GPT-4o,是其已经问世一年多的GPT-4模型的最新版本。OpenAI技术长穆拉蒂(Mira Murati)表示,最新模型能够更好地消化图片、影音短片与文字,还能透过​​语音与人类即时互动。该公司说,人们与新的语音功能交谈时,能够随时打断它,这和当前市面上的语音助理不同,而且新模型能够几乎即时地回话。

OpenAI主管们直播展示了这款模型如何分析程式码、在两个说话者之间翻译语言,或是如何指导用户解决写在一张纸上的基本代数问题,而且全部几乎都是即时的。

OpenAI发表新产品的时间点,正值Google周二展开年度开发者大会的前一天,预料Google将在大会上宣布自家的新产品。身为AI先驱的Google一直与OpenAI及其资助者间合作伙伴微软争夺生成式AI的领导地位。微软并未参与打造GPT-4o。

穆拉蒂说,她的团队「不知道Google目前的行动」,而且这次活动的时机纯属巧合。她说,周一的更新将「改变人类与机器互动的方式」。

她表示,OpenAI将免费提供新模型给用户使用, 「这是一种非常具体的方式,让我们提升为人人提供这些福利的使命。」

OpenAI执行长奥特曼把新产品比拟为电影中常见的AI工具。他去年在一场演讲中表示,他和其他主管是在2013年的电影《云端情人》找到灵感,该电影是有关一个男人爱上语音助理的故事。奥特曼和其他OpenAI员工在周一的新品发表后,在社群平台X上贴文,引述了这部电影。

奥特曼周一在个人社群平台贴文:「原本的ChatGPT显示语言介面的可能性,这个新版让人内心感觉不同。」

OpenAI表示,新模型还可以透过语调或脸部表情来侦测人的情绪。它也能更迅速在不同的情绪语调中做转换,例如从戏剧化的声音转换成用机器人声调、再到唱歌。这项功能将在数周内提供给每月支付20美元费用的ChatGPT-Plus付费用户使用。

此外,该公司也将向企业提供GPT-4o模型。穆拉蒂说,这款模型速度将是目前其最高级产品GPT-4 Turbo的两倍,但费用只为一半。该公司表示,GPT-4o中的「o」代表字根omni(完全、涵盖全部的)。从周一开始,使用免费版本ChatGPT的用户,将能使用GPT-4o中的图像与视觉功能。

奥特曼说,公司的下一款AI模型将比GPT-4明显更好。尽管外界普遍预期这款新AI模型将在2024年上半年亮相,但OpenAI试图淡化这样的预期。穆拉蒂表示,OpenAI可能会在2024年分享有关GPT-5的更新,但没有表明具体时间。