北京达佳互联申请语音合成模型相关专利,提高训练效率和准确率

金融界2024年10月22日消息,国家知识产权局信息显示,北京达佳互联信息技术有限公司申请一项名为“语音合成模型的训练方法、语音合成方法、装置及介质”的专利,公开号 CN 118762684 A,申请日期为2024年8月。

专利摘要显示,本公开提供了一种语音合成模型的训练方法、语音合成方法、装置及介质,属于计算机技术领域。上述方法包括:通过编码模块对样本音频进行编码,得到第一编码序列,通过语言模型对样本文本进行处理,得到第二编码序列,通过解码模块对第一编码序列进行处理,得到目标音频;基于第一编码序列和第二编码序列,确定第一训练损失;基于样本音频和目标音频,确定第二训练损失;基于第一训练损失、第二训练损失以及第三训练损失训练第语音合成模型得到第二语音合成模型上述技术方案能够采用联合训练的方式对语音合成模型中的多个模块进行训练,简化了训练步骤,减小了训练过程中的累积误差,提高了训练效率和准确率。

本文源自:金融界

作者:情报员