爱奇艺举办“多说话人多风格音色克隆大赛”  加速AI语音在视频行业应用

(原标题爱奇艺举办“多说话人多风格音色克隆大赛”  加速AI语音视频行业应用)

11月27日,爱奇艺多说话人多风格音色克隆大赛(M2VoC)发布详细参赛指引。本届大赛由爱奇专家团队组织举办,旨在提供一个通用的数据集与一个公平测试平台,对语音克隆任务进行研究。作为世界上第一个小资源音色克隆挑战赛,爱奇艺多说话人多风格音色克隆大赛的举办,为音色克隆、语音识别等前沿技术的创新探索提供更多机会,进一步拓宽人工智能技术的应用空间,为视听行业发展提供新契机

作为人工智能中一项创新技术,语音合成是打造良好交互体验的重要前提,在语音助手信息播报、有声读物方面具有重要应用价值。在深度学习的帮助下,语音合成已经实现效果上的显著提升,在端到端语音合成框架神经码器的技术加持下,可以生成特定领域内非常逼真和自然的语音。但与此同时,由于语音合成需要大量的语料数据和较高要求的语料录制环境,语料制作的资金成本时间成本也成为技术提升的难点。对于多说话人和多风格的语音合成,尤其是在真实环境录制或是低资源的情况下表现力鲁棒性(稳固性)仍有较大进步空间,就此,爱奇艺联合多家单位在ICASSP2021举办多说话人多风格音色克隆大赛(M2VoC),以降低对训练语料数量质量的依赖,提高合成模型质量为导向,在语料资源受限的条件下,提高合成语音的可懂度和自然度。

在2020年11月27日至2021年2月11日期间,爱奇艺多说话人多风格音色克隆大赛分为少样本赛道和极少样本赛道两大任务。在少样本赛道方面,主办方针对每个说话人有不同的说话风格和100个可用的音色克隆样本进行校验和最终测试,并为参赛者提供一个多说话人语料库,以便于训练基础模型;在极少样本赛道方面,主办方针对每个说话人不同的说话风格和5个可用的音色克隆样例进行校验和最终测试。最终,主办方经过“说话人相似度、语音质量、风格/表现力、发音准确率”四大标准加权作为比赛评判标准。本次爱奇艺多说话人多风格音色克隆大赛(M2VoC)是世界上第一个小资源音色克隆挑战赛,在此之前业内比赛普遍使用使用较大数量单一风格样本。

作为2021年声学、语音和信号处理国际会议(ICASSP2021)信号处理挑战旗舰任务之一,多说话人多风格音色克隆大赛(M2VoC)非常鼓励学术界工业界的研究人员加入。爱奇艺希望通过多说话人多风格音色克隆大赛的举办,联合更多科研人才基于先进的深度学习技术和语音转换技术处理,克隆多说话人与多风格的语音合成,为低资源语音克隆提供解决方案。同时,多说话人多风格音色克隆大赛也可进一步提升用户在观看视频时的交互体验,推进音色克隆技术的发展和应用。

科技发展推动着行业的快速进步。知名市场调查公司Global Industry Analysts预测,全球语音和语音识别技术市场在未来七至八年内将增长至160亿美元,复合年增长率为16%。一直以来,爱奇艺持续以人工智能技术赋能内容创作,提升用户娱乐体验,不断完善爱奇艺新娱乐生态。目前,爱奇艺AI技术已经应用于内容创作、生产、制作、分发、商业化等一整套流程。其中,爱奇艺智能广告追踪系统通过多种识别服务,能够快速追踪到视频中广告出现的时间、位置,确保节目满足了广告主的广告需求,相较于人工效率提升三倍。未来,爱奇艺将不断探索语音AI技术,并激发语音AI技术在泛娱乐行业中各个场景的巨大应用价值,为用户创造更美好的视听世界。