卓视智通申请基于大模型的长视频理解专利,有效减小大语言模型上下文长度对视频理解的限制

金融界2024年10月31日消息,国家知识产权局信息显示,北京卓视智通科技有限责任公司申请一项名为“一种基于大模型的长视频理解方法、装置、设备及介质”的专利,公开号CN 118840697 A,申请日期为2024年9月。

专利摘要显示,本发明涉及一种基于大模型的长视频理解方法、装置、设备及介质,该方法包括:获取待处理视频;对所述待处理视频进行秒级抽帧,得到初步视频帧序列;根据所述初步视频帧序列的长度、第一大语言模型的上下文长度和第一设定长度,对所述初步视频帧序列进行划分,得到至少一个子序列,通过所述第一大语言模型对各个所述子序列进行分批处理,得到每个所述子序列对应的理解结果;对多个所述理解结果进行融合处理,得到所述待处理视频对应的目标理解结果。通过本发明的方法,有效减小了大语言模型的上下文长度对视频理解的限制,大大增加了能够处理的视频的时长。

本文源自:金融界

作者:情报员