ChatGPT推語音對話模式能以聲音進行互動 暫開放付費用戶測試
今年在5月中旬公布GPT-4o人工智慧模型时,当时提及能以自然声音进行互动的语音对话模式,目前已经开始向部分ChatGPT Plus付费用户提供alpha版本测试,预计会在今年秋季向所有ChatGPT Plus用户提供使用。
依照OpenAI说明,此语音对话模式透过超过100个外部红队 (Red Team)以45种语言进行测试,确认使用上不会有安全等争议问题,而目前提供语音选项包含「Cove」、「Juniper」、「Breeze」与「Ember」,不包含先前被质疑与演员史嘉蕾乔韩森 (Scarlett Johansson)声音相仿的「Sky」。
在进一步解说中,Open AI表示在GPT-4o推出前的语音对话模式平均延迟,在GPT-3.5约为2.8秒,在GPT-4则约为5.4秒,主要是透过三个独立模型运作构成,其中包含将音讯转为文字,由GPT-3.5或GPT-4分析文字、做出回应,再将回应文字转为语音念出,而此次推出的GPT-4o则是透过单一模型即可完成音讯转文字、文字分析与文字转音讯三个流程,因此能以相比GPT-4 Turbo约2倍快速度完成运作。
由于花费更短时间完成过往需要三个模型才能完成的工作流程,因此代表GPT-4o将能进一步分析使用者所发出语调、表情,进而判断背后所代表情感,例如判断使用者当下情绪是否开心,或是悲伤难过等。
《原文刊登于合作媒体mashdigi,联合新闻网获授权转载。》