平安科技申请用于新增说话人的语音合成专利,减少微调过程计算量

金融界2024年12月10日消息,国家知识产权局信息显示,平安科技(深圳)有限公司申请一项名为“用于新增说话人的语音合成方法、装置、设备及存储介质”的专利,公开号CN 119091850 A,申请日期为2024年8月。

专利摘要显示,本申请公开了一种用于新增说话人的语音合成方法、装置、设备及存储介质,基于语音合成基础模型以及低轶矩阵分解理论,通过低秩矩阵分解将语音合成基础模型中部分参数分解为低维矩阵,将传统的梯度更新替换成低维网络的训练,极大减少了微调过程计算量和训练参数,减少对数据量的依赖,可运用于不同语音合成模型,具备良好的泛化能力,解决了现有技术中传统的语音合成模型通常需要大量的数据来捕捉特定说话人的特征,当只有少量数据可用时,模型很难学习到足够的特征,导致的合成语音的质量和自然度下降;而采用参数选择性微调,合成语音的自然度和表现力仍然可能受限,小数据量可能导致模型过拟合,无法泛化到未见过的新文本或语境的技术问题。

本文源自:金融界

作者:情报员