VAST宋亚宸:3D生成迈入秒级时代,今年将做到Midjourney V5/V6水平丨GenAICon 2024
智东西作者 GenAICon 2024
2024中国生成式AI大会于4月18-19日在北京举行,在大会第二天的主会场AIGC应用专场上,VAST创始人兼CEO宋亚宸以《大模型Tripo驱动3D生成迈入秒级时代》为主题发表演讲。
从文字、图片到视频、3D,信息载体不断升级,宋亚宸谈道,3D的体验质量、信息密度不断提升且更具互动性。他认为目前3D生成已经达到类似Midjourney V3的效果,今年9月将达到类V4效果,年底达到类V5/V6效果,实现真正可用,甚至通过图灵测试。
VAST是3D生成模型领域的第一梯队玩家,已打造全球最大的几个3D生成开源社区,并与Stability共同开源了全球最大、0.5秒图生3D模型TripoSR。其创始人兼CEO宋亚宸也是首位在计算机图形学顶会SIGGRAPH上发表主舞台主题演讲的中国创业者。
据宋亚宸分享,VAST的3D大模型Tripo上线百余天内生成了超过200万个3D模型。为了应对3D生成创作成本和门槛过高的挑战,VAST将3D内容平台和大众级创作者平台结合。当前这家创企已拥有超过200家B端客户,并基于其平台开发出原生AI爆款小游戏,一周突破10万用户。
以下为宋亚宸的演讲实录:
AIGC会使游戏的创作门槛和成本无限降低,这就是我们做的事情。
我们是做3D大模型的公司,产品核心就是将用户输入的文字或者图片快速生成3D模型。3D模型可以在游戏、动画、影视、元宇宙、3D打印等行业中直接使用,其本身带有Mesh、贴图、材质,你可以进入传统管线二次编辑,进行驱动、渲染等。3D模型还可以拥有带骨骼、带动作等格式,出现很多种有意思的使用方式。
那么,我们为什么要做3D这件事?
文字、图片、视频、3D中,3D是非常特殊的品类,从文字、图片、视频到3D是信息载体不断升维的过程,3D也被认为是最终的信息载体,其信息密度、体验质量都在不断提升,同时拥有双向互动性。
因此,我们相信世界正在进入一个3D新时代。
一、3D生成迎新拐点,今年做到Midjourney V5/V6水平
为什么现在做3D生成这件事情?OpenAI的GPT-3刚发布时,关注的人并不多,在其基础上做的应用、开发也相对较少,仅有如Replika等少数几个应用,大家对它的认知比较少,使其很难进行商业化。
直到2022年11月份,ChatGPT的发布成为了一个非常大的拐点,我们称其为用户的Aha Moment(顿悟时刻)。这一产品对整个行业、逐步进行商业化、用户量提升都有很大的影响。
Midjourney也类似,2022年7月份V3推出时,用户量并不多,也没有收费功能,知道Midjourney的人寥寥无几。直到半年以后,Midjourney于2022年11月份推出V4,我们认为这诞生了文生图的下一个拐点,在这个拐点上有了非常大的提升,其产品的用户量、收费方式、商业化等都得到了满足。
再来看3D,我们现在看到的3D生成,类似于Midjourney V3的水平,但已经可以在一些场景使用起来了。
预计到今年9、10月份,3D生成可以达到Midjourney V4的水平;今年年底可以达到类似于Midjourney V5的水平,通过图灵测试,并带来一次非常大的商业变革。
从3D生成的演进过程来看,除了像我们这样的创业公司,谷歌、英伟达、OpenAI、Meta、Adobe等海外企业都已进入到3D生成这个领域。
在学术上,我们从布局3D原生路线、2D优化路线、多视角生成、编辑动态场景到人物生成,在CVPR、ICLR等国际顶会上都发表了大量论文,并开源了相应技术。
全世界最大的几个3D生成开源社区都是由我们做的,比如与Stability AI共同开源了全世界最大、效果最好的图生 3D大模型TripoSR,我们还开源了全世界最大的3D算法框架Threestudio、超火爆的单图生3D算法Wonder3D,以及TGS、CSD等开源项目。
我们预计2024年年底会把3D生成做到Midjourney V5甚至V6的水平,达到下一个爆发时刻。
3D的核心在于可交互、可体验,甚至带一些游戏性。所以我们会同步做3D动态的内容生成,包括骨骼的自动绑定、动作生成,这已经在我们产品里上线。
同时,我们认为在明年或许会实现,每一个人都有能力去生成无限个属于自己的3D内容,不管是游戏、XR体验,还是任何的3D内容,这也是我们对整体3D内容生成趋势的判断。
二、3D创作门槛和成本太高,需要大众化3D内容平台
我们刚刚讲了很多AI 3D技术,但我更希望和大家分享我们是怎么把AI 3D玩起来的。
我们认为AI 3D是在拓展人类能力的边界。我随便在门口拉个人进来,让他给我发一个Twitter,可能只需要5秒钟。我说你再给我发一个TikTok,他做一下剪辑,可能2分钟就能搞定。如果我让他做个游戏,他可能会说:“好,给我3年时间、1000个人、2亿美金,我给你做个游戏。”这是很正常的。
3D为什么这么特殊?是因为其创作门槛和成本太高,它没有诞生出一个属于自己的内容平台,同时也没有实现内容的爆发。
我为什么这么说?比如我刚刚举的例子,文字有微博、贴吧作为内容平台,图片有Instagram、小红书作为内容平台,视频有TikTok、抖音、快手、YouTube,音乐有Spotify,甚至声音都有喜马拉雅,但是3D缺少大众的内容平台。核心就是生成门槛和成本太高了。
如果有一天我跟你说,发个小红书需要给我10万块钱、拍个TikTok需要3年,那你可能就不会发布内容了。因此,核心点在于3D内容成本高,如果需要1亿美金,我就得赚1亿美金回来,自然使得其内容非常少。
但如果有一天,3D内容的成本被降到无限接近于0,是不是每个人都可以低成本创作3D内容?这样一来,创作3D内容不再是为了赚钱,而是像发小红书一样,宣泄自己的情感、表达自己的想法、炫耀自己的创意,这可能是未来每个人制作3D内容、做虚拟世界、探索各种各样虚拟玩法最核心的诉求,不需要再考虑怎么赚钱。
3D创作者也会发生变化,不再是游戏大厂里面的建模师、动画师,可能是我们在座的每一位,所以我们在拓展人类的边界。
今天在大会上,我们在讲文生文、文生图、文生视频、文生音乐、文生声音等各种各样的生成方式,我今天也学习到了很多。但是我们看到人用键盘打字、用手机摄像头拍照、P图、拍视频、加滤镜等本身都是非常容易的事情,AI只是一个工具。
在所有的内容品类中,除了3D,AI提供的都是Alternative(可被选择的),只有3D提供的是从0到1的过程,它拓展了人类的能力边界。
我们做3D生成就是希望降低用户创作的门槛和成本。并且,我们认为成本下降后,当3D出现自己的“手机摄像头”时,就意味着3D出现了类似于“抖音”和“快手”的机会。
因此,我们希望做一个属于自己的3D内容平台、自己的大众级别创作者工具。当大家不断使用这些创作者工具和内容平台时,我们就会有更多数据,从而形成数据飞轮,让更好的技术带来更好的产品体验、更多的用户带来更多的数据。
当然,我们面向的用户更为关键,同赛道的一些其他玩家对于拿AI 3D做什么,大家的答案可能各不相同。
对于我们而言,我们可以给好莱坞、横店、宝莱坞的导演、摄影师提供“手机摄像头”。但是“手机摄像头”给大家带来的可能是移动互联网时代的“收钱吧到账500块”。例如用“每刻报销”节省时间报销,省下来的时间你可以去拍小红书、拍TikTok,或者创作自己想要做的视频和图片内容。这件事情可能对于我们来说更关键。
虽然,我们也有很多游戏、动画、影视的应用,但长期来说,我们希望服务的是在座的、看直播的每一位,让每个人都有办法去创作3D内容。
三、生成3D模型超200万,AI原生小游戏一周突破十万用户
给大家讲一下我们产品上线的情况。
今年年初,我们上线了3D大模型Tripo,百天内生成超过150万个模型,现在已经生成200万个模型。
这是什么概念?上个月在硅谷参加GTC,我们与全世界一些全球顶级的模型交易平台交流,这些平台积累了十几年,每个平台沉淀的模型大概有190万~200万个。而我们在短短三四个月就已经超过他们了,这就是AIGC的力量。
看数据其实很难有感观,但确实看到社区中有很多很有意思的东西。一些KOL、合作伙伴、有意思的创作者会和Magnific等AI工具结合形成完整的工具流,然后将其放到《堡垒之夜》的UGC平台、Roblox等场景中,展示给其他的创作者。欢迎大家关注我们的Twitter账号@tripoai。
在与游戏公司的合作方面,除腾讯、本站这样的游戏大厂,我们也会和5-10个人的游戏工作室合作。因为我们的出现,这些游戏公司不再烦恼没有足够的资金去招一线的美术团队、招十几个3D美术专家,现在他们只需要使用我们的3D生成能力,就可以快速完成角色设计、场景设计、关卡生成等工作,实现降本增效,打通其游戏的资产管线。
同时,很有意思的一点在于,它会出现一些原生AI玩法。
例如TripoGO小游戏,开发者仅用了不到一个月的时间开发,其玩法是你生成一个3D模型,我生成一个3D模型,然后互相打,谁打赢了就可以拿到对面的Prompt(提示词)。比如你是“胡桃夹子抽雪茄”,我是“路易十四开法拉利”,我把你打赢之后,我就变成了“胡桃夹子抽着雪茄开法拉利”。
虽然这个小游戏的玩法并不复杂,但是第一天就拥有1万多个用户,一个礼拜之内突破了10万用户,这就是AI原生玩法的力量。
还有更多的展示,包括动画生成、场景生成等。很多年轻开发者动手能力非常强,基于我们的3D生成能力做了很多自动化工具,比如ComfyUI的节点、各个引擎的插件等等。他们也会开发自己的Web App小游戏,并展现出来。
同时,我们还有苹果Vision Pro的应用,本质上就是你在虚拟世界里面,可以通过声音、文字、图片生成3D模型,生成后将它摆到任何地方,然后让它跳舞、跟你合照等。所谓的“言出法随”就是这样,每个人都变成了3D的“神笔马良”。
我们的Slogan是为世界进文明,为人类造幸福。我们的官方网站tripo3d.ai现在可以免费注册,同时可以使用我们的开放平台。
以上是宋亚宸演讲内容的完整整理。