暗物质智能申请高压缩率的语音属性分解量化系统及方法专利,能够有效保证高压缩率的语音量化 token 生成

金融界 2024 年 12 月 12 日消息,国家知识产权局信息显示,暗物质(北京)智能科技有限公司申请一项名为“一种高压缩率的语音属性分解量化系统及方法”的专利,公开号 CN 119107957 A,申请日期为 2024 年 8 月。

专利摘要显示,本发明公开了一种高压缩率的语音属性分解量化系统及方法,涉及语音量化技术领域,包括由特征抽取器、编码器、解耦器、解码器构成的生成器及判别器;特征抽取器,用于根据待量化的音频信号提取二维隐特征编码器用于对二维隐特征进行编码生成隐特征;解耦器,用于对隐特征进行特征的提取,获得多个离散的 token;解码器,用于根据多个离散的 token 获得重建音频;判别器,用于辅助生成器进行参数更新。本发明通过对输入特征的精细化选择、增强解码器的表达力和多种判别器的引入,能够有效保证高压缩率的语音量化 token 生成,一方面减少数据存储空间和 LLM 计算量,另一方面可促使大模型对超长音频建模。

本文源自:金融界

作者:情报员