这家AI公司,做出了全球最大的原生3D大模型

作者|八度

“在淘宝上,有特别多做3D创意设计的店铺,他们一年的销量能达到几十万件。原先他们是半人工操作,现在我们现在能够借助AI、通过3D生成直接打印就可以了。”DreamTech创始人张飞虎向「甲子光年」展示道。

DreamTech虽然是一家成立仅9个月的AI创业公司,但其战略路线明确,专注于原生3D生成,并且团队在这一领域的经验丰富。

CEO张飞虎博士毕业于牛津大学,师从英国皇家科学院、皇家工程院两院院士Philip Torr。Philip Torr教授在3D建模方面有重点研究。此外,DreamTech创始团队成员还曾成功创立多家3D领域标杆公司,后被苹果、谷歌等业界巨头收购。

这一次,DreamTech的成立,对于张飞虎和其团队来说,都是新的出发。不过在张飞虎看来,创业并非心血来潮,而是筹备已久:3D生成,终于走到了商业化的门前。

2023年下半年,DreamTech团队发现了3D技术的新方向——能够实现端到端的生成模型,类似于图像或视频的处理方式。紧接着,他们又攻克了3D模型表征的关键难题。这两者技术突破,让张飞虎和他的团队看到了希望,随即开展了一系列紧锣密鼓的动作。

2024年5月,DreamTech团队公布了其研发的3D生成大模型Direct3D的算法研究论文,这也是全球首个公开发布的具备可扩展性的原生3D生成大模型。该学术成果受到行业的广泛关注,Meta、Apple、Adobe等企业相继跟进该研究论文。

8月份,DreamTech团队又推出了最新的Direct3D-5B版本,具备50亿参数规模,成为目前全世界参数规模最大的3D生成大模型,这一模型具备scaling up能力,基本结论为:3D生成模型参数量每增加4倍,生成结果质量精度提高2倍。

具体来说,在3D领域,动画人物的手指等精细部位也可以被立体地生成。在模型几何结构规整度、细节精度上,Direct3D-5B也都实现了明显的提升。

Direct3D-1B(上)与Direct3D-5B(下)对比

在产品即将正式上线前夕,张飞虎接受了「甲子光年」的专访,详细介绍了3D生成过去的痛点、如今在3D数据合成、算力、scaling law等方向上的突破。同时他还讲述了今年对DreamTech团队来说,最为重要的一件事。

以下为采访内容,经过编辑整理。

甲子光年:去年12月,DreamTech公司成立。当时,是什么契机促使你们决定回国创业?

张飞虎:实际上,创业这个想法我准备了比较长的一段时间,但确实在去年下半年才开始融资。

当时,我们发现了一个核心的技术收敛:3D领域可以像图像或视频一样做出端到端的生成模型,这是其他公司或研究人员尚未发现的。我们看到了3D领域scaling law的能力。

去年上半年还出现了一项新的技术进展,叫DiT架构,它被应用于文生图。紧接着,我们自己解决了一个3D模型表征的问题,这是一个关键问题。将这两者结合起来,我们看到了希望,认为这个项目可以开始实施,并有望在今年(2024年)商业化。

简单来说,去年下半年我们判断今年可以开始进行3D生成的商业化,而在此之前这是不可能的。

甲子光年:你刚提到为创业筹备了很久,是你在此之前一直在等这个时机?

张飞虎:对,其实在2022年初,我们就开始进行相关的研究和开发。那年,我们在WAIC大会上展示了相关的demo,当时关注度也比较高。但当时的技术水平仅限于制作一些演示,而且速度非常慢,可能需要一个小时才能生成一个3D模型,效果也不理想。我当时看到这个情况,就觉得它还没有达到商业化的程度,所以我们一直在不断地打磨和完善相关的技术。

直到去年,我们发现了新的算法实现方案,情况不一样了。只要算力够,我们能立马去训练这个模型并开展商业化,所以我们在去年下半年启动创业。

甲子光年:听起来,你们关于创业的整个决策过程是比较顺其自然的,并没有太多困惑和矛盾?

张飞虎:我认为这是我们最自豪的一点。我们的战略决策做得就比较对,比如与市场上其他一些做3D生成的公司相比,包括海外的公司,他们在开始时选择了2D转3D这样一套方案,花费了几千万去做这样一个模型或者上线产品。

但我们一直坚持做端到端的原生3D,当我们推出新方案后,旧的方案就全部被淘汰了。即便你投入了数千万甚至上亿的资金,在新的方案出来之后,所有的资源都要推倒重来。

我们在战略决策上,由于我们自身的经验比较丰富,我们团队是做3D领域起家的,也做过公司并出售过,在3D领域有十年以上的一个积累。所以我们在战略决策时判断哪些算法可行,哪些事情该做,我们的方向就比较准确。

在融资拿到钱之后,我们就立马就把这套方案给做出来了,基本上没有浪费什么时间和资源。

甲子光年:在你看来创业最重要的是什么?或者说,你在创业之初的一个目标是什么?

张飞虎:我的目标其实当时考虑得很简单。我2022年博士毕业前,也就是2021年,我已经拿到了包括Google、Facebook等大公司的offer,也拿到了教职的邀请。

但我当时想的是,我想要做出一些影响力较大的东西,而不是仅仅在学校或大公司的研究所里继续做一些小规模的研究。

比如,我想要开展一些大型项目,但无论是在学校还是在大公司,我都做不到这一点。因为在大公司,我不可能一进去就能独立开展一个非常大的项目,比如像现在的3D生成项目。

另外,在学校里,资源是有限的,尤其是数据和算力资源,这是学校无法提供的。因此,我当时就想,如果想要做一个有影响力的大型项目,我就出来自己搞呗。这就是我当时的想法。

甲子光年:你刚刚提到,在高校中进行这项工作时,数据和算力无法满足需求,是吗?

张飞虎:对,首先,数据方面确实是一个难题。比如我们现在动辄需要处理的数据量达到1PB级别,这对于高校来说是无法支撑的。不仅是国内高校,即便是世界顶尖的学府,像牛津大学这种,尽管有庞大的经费,但它的算力也是有限的。

实际上,我们要做一些好的工作,其实大部分情况下还是需要跟外部公司做合作的,算力和数据,都存在这样一个瓶颈。

甲子光年:创业时,如何解决数据算力难题?

张飞虎:第一个是数据这块,3D数据的获取实际上非常困难。我们采取的策略是数据合成。

在我博士研究期间,我的课题是3D AI结合数据合成。因此,我们从2022年开始到2023年初,持续在做3D数据合成的工作,合成了非常多3D的数据。比如你刚才看到的那些二次元角色的数据,都是我们合成的成果。

利用合成的3D数据训练AI,这是我们的独家秘籍。

甲子光年:你们已经合成了2000万的数据?

张飞虎:对,3D数据的成本非常高,单个3D资产的平均制作成本大约是1000美元一个。

如果人工制作这些数据,成本将是2000万乘以1000美元,所以人工制作是不现实的,全世界没有那么多人力可以完成这样的工作,因此3D制作的难度非常大。唯一的解决方案就是数据合成。

我们在这块做了比较领先的一些方案,而且把它做到了一个全球领先的程度,甚至有些大公司可能会来挖我们的人才。核心原因在于,我们不仅理解了算法,而且拥有大规模的数据支撑。这些数据的规模可能比世界上任何一家公司都要大。

数据合成是一套非常复杂的系统,它需要日积月累的的经验和系统构建,以及反馈机制。它是一个机器学习系统,类似于我们早年看到的AlphaGo,涉及强化学习和监督学习,然后通过整个反馈过程,组合出一些真正有用的成果。

甲子光年:数据合成是从去年开始的吗?

张飞虎:是的,去年年初开始,到现在有一年半了。

相比之下,其他公司可能需要购买数据,或者花钱去爬取数据,这当然存在一定的法律风险,属于灰色地带。另外,购买数据的成本非常高。所以我们的优势在于可以用低成本获取大量合成数据。

甲子光年:你们是最开始就意识到数据是一个痛点,所以很早就往这个方向去突破了,是吗?

张飞虎:确实,我们在算法之前,去年上半年,我们已经开始搞数据了。

因为我们坚定认为(数据)这件事比较重要,我对这方面的认识比较足。我所在的牛津实验室是世界上非常知名的能够进行数据合成的实验室,为苹果公司提供过相关的服务。我的导师认为,在算法层面,它并没有大家想象的那么困难,你不去做别人也会去做,但数据工作属于基础研究的领域。

整个AI领域都是建立在数据基础之上的。例如,我们看大语言模型,Facebook开源的Llama 3与Llama 2相比,它的模型本身并没有大改,它只是更新了数据,将训练数据清洗得更干净,并使用了更多的训练数据,它的效果就直线提升了。实际上,数据才是AI的一个本质问题。

有了数据的支撑,我们可以叠scaling law了。我们最近在研究中发现了一个非常重要的规律,在5月份时我还没有完全搞清楚,但最近我们迭代出新版本的模型后,发现了一个特别重要的事情:3D生成领域的scaling law,咱们看大语言模型生成了scaling law,图像模型生成了scaling law。

那到3D生成领域的scaling law是怎样的呢?

我们发现:模型参数每提升4倍,模型的精细度就能提高2倍,也就是说我们生成的图像质量可以提高2倍。比如原来我能做1厘米厚度的东西,我现在就能做到5毫米。

比如从1B到现在公开的5B,精细度的提升非常明显。1B的手指有些弯曲,但5B的手指就非常直了。

甲子光年:在你看来,目前市场上有哪些算是DreamTech的竞品?

张飞虎:我们在数据上的优势是任何一家公司都不具备的,哪怕是大公司。在算法层面上,我们迭代得非常快,实际上各家可能主要在参考我们的一些相关研究,我们推动了这一波的技术革新。

长远看,数据一定是DreamTech最大的优势。

短期内,比如半年内,我们在算法上的优势也很大。从长远来看,可能取决于我们拥有多大规模的数据。这是一个持续的过程,而且是一个门槛非常高的领域。

甲子光年:我看过资料,你们目前已经开发了两款产品,这其中哪款产品会被优先开发?

张飞虎:你所看到的是Neural4D,这个产品是为创作者设计的。

另一款产品则是名为AnimeIt的应用程序,它具备聊天和陪伴等功能,更偏向于C端市场。

我们的商业化进程是有明确时间节点的,特别是在10月份,我们将重点放在创作者产品这一部分,并计划做一些活动,例如近期我们做了一个CuteMe的创意玩法,用户可以通过照片创作Q版风格化的3D形象,让普通用户也可以自由发挥创意。

Direct3D-1B 3D打印件效果

甲子光年:你们会为客户提供哪些服务模式?

张飞虎:我们的服务模式之一是创意平台,通过我们的产品,设计师可以注册账号,并推出一些增值功能,例如付费用户能够体验到更多的功能。用户在网站上生成内容后,可以进行编辑,并利用工具制作动画,这些操作都可以在网站上完成。

用户可以根据自己的需求使用这些内容,比如游戏开发者可以将其用于游戏开发,动画师可以用于动画制作,或者3D设计师可以将其打印出来,这是针对创作者的服务,我们称之为小B端的创作群体。

对于普通用户,可能平时没有意识到自己是3D资产的消费者,但实际上大众都是3D内容的消费者。

例如,在玩游戏时,我们可以为普通用户开放一个APP。这个APP的功能允许用户创造角色,包括Q版或二次元风格的角色,并与之进行互动,比如聊天和社交体验,还可以为角色装扮,类似于过去的QQ秀。

此外,用户还可以将这些角色打印出来作为礼物送给他人,比如将家人的形象转换成风格化的角色后,作为礼物送给朋友或家人。

用户还可以在APP上玩游戏,甚至自己制作小游戏,因为我们的生成技术非常强大,用户可以创造出场景,拼接资产,享受无限的可能性,比如自己创造游戏等。

甲子光年:现在生成需要多长时间?

张飞虎:大约1~2分钟,这取决于后台用户排队的情况。如果等待时间较长,很可能是因为后台用户太多。去年这个时候,可能最快也需要20分钟。

甲子光年:你们是什么时候确定走二次元路线?

张飞虎:我们在做3D生成的时候进行过市场调研,普通用户大多不喜欢那种真实还原的效果。比如我给自己拍一张照片,然后做成100%还原的样子,普通用户并不喜欢,他们喜欢的是风格化、可爱、卡通化的效果。

而且,这种风格的受众和市场规模要比其他风格大得多。比如二次元在整个3D内容消费市场中占据了50%的份额,加上Q版风格的,两者加起来超过了80%。

所以去年我们确定以风格化作为主要的路线。我们不会追求100%的真实还原,而是会进行风格化处理,比如你输入的是一个人的真人图像,我们可能会将其转换成二次元形象,或者转换成Q版形象。

甲子光年:基于你刚刚提到的全世界最大,包括之前也有资料显示是全球首个原生3D大模型。我如何辨别或证明是否为全球首个?

张飞虎:你可以看到我们5月份最早发表的一篇关于原生3D的论文。这是目前公开发表的第一篇达到这种水平的论文。在此之前,确实还没有类似的研究,大家都在尝试其他的方案,但我们的这套方案是目前大家公认的。例如,我们了解到欧美的大企业都在跟进这套方案,都在朝这个方向去做。

甲子光年:外界会对3D市场有刻板印象,认为3D的AI应用会是一个相对小众的市场,更适合设计师人群。你怎么看待这种观点?

张飞虎:其实我刚才介绍行业的时候,每一个行业都非常非常大。当时我们在做市场调研的时候,就发现一个问题,比如现在非常热的图像和视频,大家传统意义上认为市场比较大,但大家会发现一个点,就是大众不太愿意为这些付费,因为互联网上这些东西都是天然存在的,是免费的。

但在3D领域,并不是如此。在3D领域,我们平时获取资产时,要么自己订阅软件,比如在海外,当付费习惯较好时,使用的都是正版软件,如3D Max等建模软件,年订阅费用约为1万美元。

而当用户需要购买模型时,这与图像和视频也不一样,因为图像和视频可以轻易地截图或录制。但购买3D资产或虚拟资产时都需要付费,比如在sketchfab上购买一个最简单的资产,可能需要花费大约10到15美元。即使在国内,用户不太愿意付费的情况下,他们也会知道在淘宝上购买盗版模型可能需要花费几块钱。

所以这些是3D领域与其它领域不同的地方,我们不必担心用户不愿意付费的问题,他们的付费习惯非常好,也愿意为这些3D资产付费。

另一个支撑这个行业庞大的因素是其下游应用场景非常广泛。

例如,游戏行业就是一个非常大的市场。再比如3D设计行业,它是一个万亿级别的行业。我们接触到的许多用户,比如珠宝设计师、鞋类设计师,或者其它类型的设计师,他们可能会设计出某个产品,生成一个3D模型,并将其制作成3D打印产品。此外,有些用户可能会购买一个花瓶,如果只是普通购买,可能只需要花费10元钱,但如果这个花瓶是用户自己创造的、独一无二的设计,那么他们可能愿意花费几百元。

在欧洲和国内,年轻人在创业和设计领域的需求非常大。具体来说,有几个非常大的行业。首先是创意设计领域,我们一直认为它是一个千亿甚至万亿级别的市场,这完全依赖于3D技术,因为它需要制作实物。另一个是游戏行业,我们看到了《黑神话:悟空》上线几天就赚取了十几亿的收入,它完全是基于3D技术。

当我们的3D生成技术成熟后,我们认为即使是小团队也能够开发3A级别的大作。

目前3D应用最困难的部分还是模型的制作,可能需要花费数年时间进行建模和扫描。但在3D技术成熟后,开发这类3A大作游戏将变得非常简单。还有动画行业,现在3D动画正成为主流,动画也是一个千亿级别的市场。

为什么说3D动画的体验感要比2D好很多?2D动画是一张张图画,然后将它们连接起来使动画动起来。而3D动画则是先建立3D模型,然后通过动作捕捉技术,让人的表情和动作驱动模型,最后渲染出一部动画,其流畅性和连贯性都非常好。还有大家期待非常高的AR和VR行业,整个生态完全依赖于3D技术。

甲子光年:3D其实是在迭代这些行业?

张飞虎:对,它会让这些行业做得更好玩,而且让每一个用户都可以独立创作。同时,比如我们期待的元宇宙和AR、VR技术,为何之前的发展并不成熟,没有起来?核心原因有两个:一是内容太少,无法生产出好玩的内容。3D建模太难了,没有这类资产和数据,不像图像或视频那样简单,3D建模的难度确实很大。

另一个原因就是硬件设备还不成熟。设备的成熟可能是一个渐进的过程,当然,这需要硬件公司来解决。

我们把3D内容这块做好,这是3D生态的一个基础技术,它的重要性就像现在的文字和图像在互联网上的重要性一样,在XR这个生态系统中,3D是一个基础元素级别的关键要素。

甲子光年:你认为今年对DreamTech来说最重要的一件事是什么?

张飞虎:我们认为最重要的是在年底前完成15B至16B模型,也就是我们称之为XL模型的迭代。

这个模型对我们的数据处理要求非常高,它意味着我们从数据合成阶段进入到数据闭环阶段。同时,在这一基础上,我们将开发出更多的商业应用。这是我们今年年底的目标,就是训练出一个具有160亿参数的模型。

目前,由于算力限制,我们实际上并没有使用全部数据进行训练,例如我们的5B版本模型仅使用了大约400万数据。而XL模型将使用全部2000万训练数据。

Direct3D 迭代路线图,DreamTech下一个目标:Direct3D-XL(16B)版本,将进一步提升生成结果质量精度

甲子光年:这个一旦做成其实也是一个里程碑。

张飞虎:对,它将是一个非常大的里程碑。我们自己的C端产品都可以在这个基础上做得非常好。而在明年上半年,基于这个模型,我们可能会经历一个用户数量激增的阶段。

(封面图来源及文中图片来源:DreamTech)