更厲害!OpenAI推Voice Engine技術 15秒聲音範本可合成語音
日前推出可透过文字、静态图像生成长达1分钟拟真影片的自动生成式人工智慧技术「Sora」之后,OpenAI稍早再次宣布推出以15秒长度声音范本即可生成自然合成语音的Voice Engine技术。
不过,为了避免产生争议,OpenAI目前并未对外开放使用Voice Engine技术,仅针对特定用途如协助因病逐渐丧失语言能力的病患保留其声音,同时所有以此技术产生内容都会加上可追踪来源的数位浮水印,避免有心人士滥用此技术。
而透过Voice Engine技术生成的合成语音,几乎与本人发出声音相仿,甚至也能让合成语音转以其他语言陈述,让使用者能以自己声音与国外对象沟通,而非透过其他合成语音对谈。
类似技术,其实先前已经有不少业者提出,但通常需要长度更长的原始语音资料进行学习,因此OpenAI标榜仅需15秒长度即可完成学习训练,并且生成贴近本人语音声调内容,显然是在做技术上的火力展示。
目前OpenAI仅先向特定企业提供此技术进行测试,并且透过反馈意见改善使用体验与安全问题。包含线上教育公司Age of Learning、叙事视觉化平台HeyGen、健康资讯软体商Dimagi、AI通讯App开发商Livox,以及健康系统商Lifespan都已经开始使用OpenAI此技术打造应用服务。
《原文刊登于合作媒体mashdigi,联合新闻网获授权转载。》