ChatGPT会说话了
参考消息网9月27日报道 据美国《华盛顿邮报》网站9月25日报道,美国开放人工智能研究中心(OpenAI)宣布,它将赋予其聊天生成预训练转换器(ChatGPT)利用语音和音频与用户对话的能力,这意味着这家规模较小的人工智能公司,将在打造更智能语音助手的竞争中,与技术巨头谷歌、苹果和亚马逊直接较量。
聊天机器人ChatGPT可以用五个角色中的一个来回答用户提问,语气听起来比“亚历克萨”(Alexa)和Siri等热门语音助手更像谈话。开放人工智能研究中心说,添加语音是一种关键方式,旨在让更多人与ChatGPT互动和使用ChatGPT。
OpenAI的宣布凸显出,先前凭借Alexa在语音助手方面居于领先地位的亚马逊,最近几个月在推出面向大众的新人工智能工具方面已经落后。25日,在OpenAI作出宣布的同一天,亚马逊称其已签署一项协议,将对另一家人工智能初创企业Anthropic公司进行高达40亿美元的投资。这是自微软公司今年初签署里程碑式的对OpenAI的投资协议以来,人工智能领域规模最大的一份协议,反映了科技巨头正押注于热门的人工智能初创企业。
在此之前,谷歌、亚马逊和OpenAI等公司上周推出了若干款人工智能产品,这一疯狂速度表明各家公司争先恐后地想要击败竞争对手。这些公司正在尝试各种方法来让人们使用它们的机器人并为机器人付费,把这些机器人程序置于现有音箱中是它们正在探索的关键途径之一。上周,亚马逊宣布将为它的Alexa家用音箱增加一个聊天机器人“对话”功能。今年夏天,谷歌曾对员工说,它正在考虑将“巴德”(Bard)聊天机器人背后的技术应用于它自己的语音助手。
先前,人们可以通过在移动应用程序上大声说出问题来向ChatGPT提问,但这款机器人会以文字作答。OpenAI还说,人们现在可以在提问时上传图片,比如展示冰箱里食材的一张照片,并请ChatGPT提出食谱建议。添加语音和图像能力也使ChatGPT进一步朝着成为真正的“多模态模型”迈进——成为能“看”、“听”世界、在接收文字之外还能通过语音和图像作出回应的聊天机器人。人工智能研究人员和分析人士说,多模态模型是该行业竞争的下一阶段,各公司正在竞相打造能力最强的模型。
聊天机器人背后的“大语言模型”技术提供了这样一种可能性:语音助手可以变得更有能力进行更长时间的自然对话并回答更复杂的问题。OpenAI的消费产品副总裁邓修平说,语音角色并未有意模仿任何特定的人。
在演示中,他展示了这个机器人如何理解闲聊和开放式的语音问题。他说,新功能使对话变得更容易、更流畅,而不需要考虑提问时如何措辞。邓修平说:“有了这个功能,你就可以随便说话。我的孩子们现在要求ChatGPT给他们讲睡前故事。”