OpenAI新王炸:ChatGPT语音助手可以“看”人说话了,能实时视频对话
本文作者:李丹
来源:硬AI
OpenAI为期12个工作日的新产品和技术发布活动出了新王炸:在首次公开演示将近七个月后,OpenAI正式面向广大付费用户推出ChatGPT类人高级人工智能(AI)语音助手的新功能,实时视频对话。
美东时间12月12日周四,OpenAI宣布,在ChatGPT的移动端应用程序App中,上线ChatGPT高级语音模式Advanced Voice的视频和共享屏幕功能。Advanced Voice由OpenAI的多模态模型GPT-4o支持。
OpenAI的研究员在直播中演示了任何运用新功能,点击ChatGPT 聊天栏旁边的语音图标,然后点击左下角的视频图标,就可以启动视频对话。如果想共享屏幕,手机用户要点击打开一个有三个喧嚣的菜单,选择其中的“共享屏幕”(Share Screen)。
在和ChatGPT的视频对话中,OpenAI研究员提问,研究员先让GPT看到并和现场的OpenAI工作人员分别打过招呼,然后问GPT,现场谁的打扮最像圣诞老人,谁像圣诞老人的驯鹿,GPT均作出准确而回答。研究员演示了,给GPT转发一个短信内容及图片,让GPT建议如何回复对方的短信。
研究员还演示了,利用Advanced Voice的新功能让GPT帮忙校对或者通过GPT学习新东西。比如找出一些制作手冲咖啡的咖啡壶、过滤杯等工具,向GPT展示并询问如何使用这些工具,在操作时,让GPT评价做得如何,并给出建议。
OpenAI表示,大多数ChatGPT Plus和 Pro套餐的订阅用户以及所有Team用户都将可以在今后几天内通过ChatGPT的App访问周四推出的新功能,预计欧盟、瑞士、冰岛、挪威和列支敦士登的 ChatGPT Plus 和 Pro 用户也将很快可以运用新功能。ChatGPT的企业版和教育版Enterprise和Edu将于明年1月上线新功能。
同时OpenAI宣布,在Advanced Voice这一高级语音模式中,新增了“限时”的圣诞老人声音作为“节日特供”,有效期持续到明年1月初,在全球范围内,所有移动、网络和桌面App用户都可选用,它可通过 ChatGPT 中的雪花图标访问。
华尔街见闻曾提到,今年5月OpenAI就在推出新旗舰模型GPT-4o时演示了语音模式Voice Mode,不过该模式真正落地一波三折。
OpenAI原计划6月末向一小批Plus计划用户推出该语音模式,6月又宣布推迟一个月发布,以便确保该功能安全有效地处理来自数百万用户的请求。当时OpenAI称,计划今年秋季让所有Plus用户都可以访问该功能,确切的时间表取决于是否达到内部对安全性和可靠性的高标准。
7月末,OpenAI对有限的部分付费Plus用户推出高级语音模式下的ChatGPT,称语音模式无法模仿他人的说话方式,且增加了新的过滤器,保证软件能够发现并拒绝某些生成音乐或其他形式受版权保护音频的请求。当时上线的语音模式缺少5月OpenAI展示过的不少功能,比如计算机视觉功能,类似于本周四OpenAI宣布将要推出的视频对话答问。