☰

卓视智通申请基于大模型的长视频理解专利，有效减小大语言模型上下文长度对视频理解的限制

金融界2024年10月31日消息，国家知识产权局信息显示，北京卓视智通科技有限责任公司申请一项名为“一种基于大模型的长视频理解方法、装置、设备及介质”的专利，公开号CN 118840697 A，申请日期为2024年9月。

专利摘要显示，本发明涉及一种基于大模型的长视频理解方法、装置、设备及介质，该方法包括：获取待处理视频；对所述待处理视频进行秒级抽帧，得到初步视频帧序列；根据所述初步视频帧序列的长度、第一大语言模型的上下文长度和第一设定长度，对所述初步视频帧序列进行划分，得到至少一个子序列，通过所述第一大语言模型对各个所述子序列进行分批处理，得到每个所述子序列对应的理解结果；对多个所述理解结果进行融合处理，得到所述待处理视频对应的目标理解结果。通过本发明的方法，有效减小了大语言模型的上下文长度对视频理解的限制，大大增加了能够处理的视频的时长。

本文源自：金融界

作者：情报员

卓视智通申请基于大模型的长视频理解专利，有效减小大语言模型上下文长度对视频理解的限制

相关资讯