卡特加特申请基于多模型协作的图生视频及配乐专利,大幅降低视频创作技术门槛

金融界2024年10月18日消息,国家知识产权局信息显示,北京卡特加特人工智能科技有限公司申请一项名为“一种基于多模型协作的图生视频及配乐的方法及系统”的专利,公开号 CN 118782045 A,申请日期为2024年7月。

专利摘要显示,本发明公开了一种基于多模型协作的图生视频及配乐的方法及系统,该方法首先利用图生文大模型对图片信息进行解析与理解,将其转换为语言和文字。随后,通过文生文大模型将图片表达的文字信息生成有条理的故事,再利用文生视频大模型将故事信息转化为视频。视频生成后,通过解构和抽取算法,从视频中抽取关键帧,并使用图生文模型进行情感分析,最终结合文生音乐大模型生成配乐。本发明提供了一种将单张图片转换为具有连贯情节和配乐的视频文件的方法,大幅降低了视频创作的技术门槛,推动了UGC内容创作的普及。此外,本发明还包括一个用户友好的APP、电脑网页和微信小程序系统,方便用户多途径使用该技术。

本文源自:金融界

作者:情报员