影/OpenAI語音助理的回應有多厲害?幾乎輾軋Siri和Alexa

OpenAI发表了新的GPT-4o模型,含有语音助理新功能,即时回应的速度和内容令人惊艳。路透

OpenAI发表了新的GPT-4o模型,含有语音助理新功能,即时回应的速度和内容令人惊艳,除了能像人类在正常对话中一样快速回应、即兴唱歌、能嘲笑不好笑的笑话或者自嘲,还能在相机镜头协助下,帮忙人类解决写在课本上的数学问题。

OpenAI在YouTube频道上张贴了16段影片,展示GPT-4o模型语音助理与人类的各种聊天互动,像是利用相机判断使用者脸上的笑容表情、推测有快乐心情,判断使用者穿了什么颜色的衣服与身处的空间环境,借此展开聊天话题。当使用者提到,今天有个发表会要介绍GPT-4o的语音助理时,「她」瞬间惊讶并害羞笑出来,回应说「我?是要介绍我?」

根据OpenAI说法,GPT-4o模型对语音输入的反应最快可达0.232秒,实际上平均只要大约0.32秒就可回应,号称与人类对话时的速度差不多。

这些影片中,除了大秀即时翻译功能,展示者还在纸上写了一道代数问题「3 X+1=4」询问ChatGPT,语音助理利用相机镜头解读算式之后,一步一步教导使用者解出答案。

另一段影片显示使用者要求ChatGPT讲一段床边故事「机器人与爱」,在下指令希望语音助理的语调更具戏剧性后,ChatGPT立刻「变声」,用演话剧的方式讲故事,甚至马上切换成机器人说话的语调,最后甚至唱了一段歌为故事画下句点。

当然,GPT-4o模型同样善于协助分析和撰写程式码,也能分析图表,而且这回还是用语音生动地与使用者对话。

另一段影片还显示,将两台使用GPT-4o模型的手机放在旁边时,「两位」语音助理甚至能够互相对话聊天、即兴唱歌。

在其他影片中,GPT-4o模型还能嘲笑笑话、正确识别猜拳的获胜者,也能根据蛋糕插了蜡烛来判断这可能是某人生日,还唱了一首生日快乐歌。

对于这场发表活动,MarketWatch网站发表一篇文章,题为「OpenAI是否刚推出了Siri杀手?」有网友盛赞这把ChatGPT功能提升到了全新水准、「未来是如此光明」。

辉达高级研究科学家Jim Fan则指出,OpenAI的语音助理「生动逼真而且甚至有点轻浮」,还让人回想起2013年的科幻电影「云端情人」。