世优科技申请基于场景的语音识别方法及装置专利,解决现有技术中语音识别不准确的问题
金融界 2024 年 11 月 11 日消息,国家知识产权局信息显示,世优(北京)科技股份有限公司申请一项名为“基于场景的语音识别方法及装置”的专利,公开号 CN 118918883 A,申请日期为 2024 年 10 月。
专利摘要显示,本发明公开了一种基于场景的语音识别方法及装置。其中,该方法包括:获取待识别语音信号的语音编码特征;获取与待识别语音信号的应用场景对应的场景关键词,并基于场景关键词生成包含上下文依赖的场景特征向量;通过多层双向神经网络,逐层使用不同深度的上下文特征,来从场景特征向量中提取出与场景关键词相关的深层隐层特征;基于动态注意力机制,将深层隐层特征与语音编码特征进行融合处理,生成包含场景关键词的融合特征;基于融合特征,通过分类器计算出待识别语音信号的语音单元的概率分布,并基于概率分布对语音单元进行分类;根据语音单元的分类结果,对待识别语音信号进行语音识别。本发明解决了现有技术中语音识别不准确的技术问题。
本文源自:金融界
作者:情报员