深圳若愚科技申请基于多模态模型的意图识别专利,使机器人在复杂任务中减少对人类频繁指令的依赖

金融界2024年11月11日消息,国家知识产权局信息显示,深圳若愚科技有限公司申请一项名为“基于多模态模型的意图识别方法、装置、设备及存储介质”的专利,公开号CN 118916531 A,申请日期为2024年10月。

专利摘要显示,本申请涉及意图识别技术领域,提供了基于多模态模型的意图识别方法、装置、设备及存储介质。该方法包括:获取文本指令信息和目标视频;将所述文本指令信息输入预设的文本特征提取模型,得到文本指令特征信息;对所述目标视频进行分帧处理,得到所述目标视频对应的视频帧序列;将所述视频帧序列输入预设的视觉特征提取模型,得到视觉特征信息;将所述文本指令特征信息与所述视觉特征信息进行融合,得到融合特征信息,并将所述融合特征信息输入预设的多模态模型,得到用户意图文本。将该方法应用于机器人时,能够使机器人在复杂任务中,减少对人类频繁指令的依赖,从而实现更加流畅和高效的人机协作。

本文源自:金融界

作者:情报员