对标Sora 这家清华系多模态大模型企业再获亿元融资 启明创投、百度都投了
《科创板日报》3月12日讯(记者 张洋洋) 清华系大模型公司又融资了,这次是一家对标Sora的多模态企业。
今日,北京生数科技有限公司(下称“生数科技”)宣布完成新一轮数亿元融资,本次融资由启明创投领投,达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲继续跟投,华兴资本担任独家财务顾问。本轮资金将主要用于多模态基础大模型的迭代研发、应用产品创新及市场拓展。
生数科技成立于2023年3月,师出清华大学朱军团队,是国内最早布局多模态大模型的团队之一,由瑞莱智慧RealAI、蚂蚁集团和BV百度风投联合孵化,公司业务聚焦于图像、3D、视频等原生多模态大模型的研发。
▍近期重点突破长视频生成能力
与这一波绝大多数大模型初创企业类似,生数科技也出自清华大学,其核心团队来自清华大学人工智能研究院,公司CEO唐家渝曾任腾讯优图实验室高级产品经理和瑞莱智慧RealAI副总裁,先后负责瑞莱智慧产品团队、AI安全产研团队及业务。
生数科技首席科学家朱军,为清华大学人工智能研究院副院长,也是清华智能技术与系统国家重点实验室主任和智源人工智能研究院的首席科学家。此外,团队成员还包括来自北京大学和阿里巴巴、腾讯、字节跳动等公司的多位技术人才。
去年6月,生数科技已完成近亿元融资,当时由蚂蚁集团领投,BV百度风投、卓源资本跟投,那一轮融资时,生数科技估值已达1亿美元。两个月后,生数科技再度获得由锦秋基金独家投资的数千万元天使+轮融资。
在商业模式上,生数科技CEO唐家渝告诉《科创板日报》记者,公司是模型层和应用层两条路走路,自研产业级的可控多模态通用大模型和垂直应用产品,现在已初步完成商业化验证。
一方面构建覆盖文本、图像、视频、3D 模型等多模态能力的底层通用大模型,以API的形式面向B端机构提供模型服务能力。
另一方面面向图像生成、3D生成、视频生成等场景打造垂类应用,按照订阅等形式收费,在应用场景上,生数科技将主要面向概念设计、游戏制作、影视后期等内容创作场景。
产品研发进度上,截至去年9月,生数科技推出了基于统一的多模态多任务框架的产业级通用基础大模型(闭源版),同时也于去年上线两款工具产品:视觉创意设计平台PixWeaver、3D资产创建工具VoxCraft。
唐家渝表示,目前公司已与多家游戏公司、个人终端厂商、互联网平台等B端机构开展合作,开放模型服务,提供AIGC个性化体验、定制化内容生产等方面的能力。
对于接下来的规划,唐家渝告诉《科创板日报》记者,坚持“原生多模态”方向,基础模型层面会持续优化,不断提升语义理解、可控性、美观度方面的生成效果,近期则将重点突破长视频生成能力。
在产品端,现有产品将持续迭代,不断满足用户需求,实现用户量的持续增长,同时公司也正在探索工具以外的全新产品形态,致力于提升每个人的创造力和生产力。
▍对标Sora
从行业发展趋势来看,从Sora的惊艳亮相到最强文生图模型Stable Diffusion 3的推出,多模态的趋势已成为AI行业共识。尽管Sora领先如此,但因技术的阻碍,其也还没实现公开应用。
从技术角度来看,唐家渝告诉《科创板日报》记者,文生视频难度在于,长视频的时空信息怎么有效的表示,怎么有效地去压缩视频数据,学到一个嵌入的表示,然后在上面再去做扩散、生成。以及一些关键帧的运动,如何保持住在长时间序列下画面元素的连贯性和一致性等等。
简单理解就是,在训练侧,怎么把长视频进行无损压缩喂给模型,让模型学习理解里面的信息;在推理侧,本质上视频生成是先生成完整视频的压缩表示,然后再通过解码器恢复出整段视频,需要保证帧与帧之间画面的连贯一致,而在长视频中,保持前后的一致性难度更大。
唐家渝表示,Sora出现之后,基于transformer的Diffusion路线目前看是最优的也是最清晰的,但是也不排除后面会出现更好的架构,生数科技背靠清华的实验室团队,也一直探索和关注着新的架构。
在文生图、文生3D模型、文生视等领域,生数科技此前已有研究成果和商业产品对外释出。Sora模型的推出和爆火,生数科技内部已将其作为对标对象。
上一轮ChatGPT热潮中,市场均在讨论国内大模型和ChatGPT的差距,同样的问题,如今也在Sora身上复现。
在唐家渝看来,国内和Sora的差距是小于语言模型和GPT-4差距的,“我们本身就推测了今年视频生成会迎来爆发,但Sora的出现确实比我们预期早了近半年”。
从研发能力的角度来看,唐家渝表示,美国具备一定的领先性,但中国在该领域并非完全从零开始的阶段,清华大学朱军教授带领的课题组早在2023年1月提出基于Transformer的多模态扩散大模型UniDiffuser,首个采用了基于transformer的网络架构U-ViT,该架构与Sora的架构路线完全一致,但区别在于UniDiffuser主要应用于图像生成任务,但可以以此为基础进行视频任务的拓展。