对话MiniMax创始人闫俊杰:打不赢,就应该被淘汰

出品|本站科技《态度AGI》对话栏目

作者|丁广胜 宗淑贤

在MiniMax成立以来的第一场媒体见面会,创始人闫俊杰分享了基于MOE(混合专家模型)+ Linear Attention(线性注意力)的新一代模型技术的应用,并展示了MiniMax最新音乐模型、视频模型的研发成果。

最为引人关注的是,MiniMax发布了一支名为《魔法硬币》的2分钟视频。其所有场景画面全部由大模型生成,没有进行任何人类加工,效果惊艳。

本片所有场景均由Minimax大模型生成,未经任何修改(来源:逆向思维)

“科学技术是第一生产力,这是MiniMax坚持技术创新的最底层原因。”闫俊杰说,MiniMax将持续通过技术突破推动AI加速发展,拓展人类智慧的边界,真正实现Intelligence with Everyone。

据介绍,作为中国首个研发MoE大语言模型并成功上线的AI企业,MiniMax持续在模型算法上做创新,并最新推出基于MOE+ Linear Attention的新一代模型技术。通过此新型线性模型架构,MiniMax大模型能在单位时间内更加高效地训练海量数据,极大地提升了模型的实用性和响应速度。

在与GPT-4o同一代模型能力对比上,新一代模型处理10万token时效率可提升2-3倍,并且随着长度越长,提升越明显。相比于通用Transformer架构,新架构的原生线性计算复杂度大幅减少了大模型的训练和推理成本。在128K的序列长度下,新架构成本减少90%以上。

视频模型方面,MiniMax宣布推出视频模型。MiniMax视频模型具有压缩率高、文本响应好和风格多样等优点,可生成原生高分辨率、高帧率视频,模型能力首屈一指。

音乐模型方面,MiniMax第一款音乐模型可以合成纯音乐为制作人快速构建歌曲的基本结构,由歌手自由演绎主唱或和声部分。没有伴奏,音乐模型也可以是实力歌手。MiniMax语音模型同样迎来更新,已实现对粤语、日语、韩语、西班牙语等多语种支持的升级。

目前,MiniMax音乐生成模型与视频生成模型已经在开放平台和海螺AI网页版上线。此外,abab 7系列模型将于未来数周内发布。

“很多时候不是我们的技术在帮助用户,更多的是用户在帮助我们。”闫俊杰认为,有了多元化用户的参与和反馈,才有更好的智能。

据披露,MiniMax每日与全球用户进行超30亿次交互,处理超3万亿文本token、2000万张图片和7万小时语音,大模型日处理交互量排名国内AI公司首位。

面对市场压力,闫俊杰坦言:“如果我们在竞争中打不赢,就应该被淘汰,没有其他选择。”他认为,MiniMax能做的就是将我们觉得有可能变强的事无限地放大,包括两点:

一是技术如何提升,二是如何跟用户做更好的共创。

以下为闫俊杰与本站科技等媒体对话实录(经调整):

问:您眼中的AGI是什么样的?

闫俊杰:我们认为的AGI可能不是一个很高大上的东西。当大家觉得不是AI的时候,而是变成大家每天都在用的一部分,我觉得AGI就实现了。

问:MiniMax为什么要做视频生成?

闫俊杰:本质原因是我们每天看的大部分内容,都不是文字,都是一些动态的东西。在人类社会,大模型的核心意义是做更好的信息处理。大部分的信息体现在多模态的内容里面,而不系体现在文字上,只是文字很多时候是里面最精华的那么一小部分。

为了能够有非常高的用户覆盖度和非常高的使用深度,能够输出动态的内容是唯一的办法,这是一个非常核心的判断。只是在之前的时候我们先做出来文字,又做出来的声音,其实很早做出来了图片,只是现在技术变得更强,把视频也做出来。这个路线是一以贯之的,一定要能够做多模态。

这里面的挑战在于,之前基于文本建的这套底层的基础设施怎么来处理数据,怎么来清洗数据,怎么来标注,对视频上都不太适用。意味着基础设施也需要升级。再次是耐心,做文字有很多开源的东西,如果基于开源来做自己研发会更快,如果做视频开源的东西没那么多,做出来其实很多东西越来越需要重新来做,需要付出的耐心也更大。

问:数据来源在哪?

闫俊杰:中国有比较好的措施。国家层面有很多政策出来,以政府组织的形式,有很多非常高质量的数据开放给技术公司使用。这些数据完全没有版权的问题,对创业公司帮助非常大。

我们自己也会采购第三方的数据。我们尽可能地用符合版权的数据,我们尽可能往这个方向努力。

问:视频生成,怎么考虑商业变现?

闫俊杰:商业化基本分两个形式,一个是我们的开放平台,现在已经有30000家企业客户和开发者,这是To B部分。第二,产品广告机制.

我觉得目前阶段,最重要的东西还不是商业化,是真正地让技术到达广泛可用的程度。

问:如何看待陪伴类AI的前景?

闫俊杰:星野这样的产品底层设计其实不是陪伴用户聊天,底层设计实际上是一个内容社区。一些用户可以根据创造的世界观进行互动,很类似像小说的交互体验,核心是内容社区,核心不是陪一个人来聊天。我们认为内容社区产品的特点是,数据主要是用户的创作。

问:最近快手有推出飞船。国内还比较卷,怎么把自身的壁垒提升?

闫俊杰:这个事除了快手有,字节也有。像电动车、手机、移动互联网,这些行业都是有好几家公司进行了长期非常激烈的竞争,最终使得中国的产品全球都领先了。

我们作为一家小的创业公司来说,如果在竞争中打不赢,那我们就应该被淘汰,其实也没有其他的选择。这在一定程度上让我们开始意识到,当你有很多大厂的竞争对手,可以让我们很快地看清一些非常底层的东西。

我们能做的就是把我们觉得有可能变强的事无限地放大,两点:一是技术如何提升,二是如何跟用户做更好的共创。

问:目前智能体或虚拟的角色很难去对用户进行深度的聊天和陪伴,会导致用户的流失,如何应对这样的问题?

闫俊杰:本质上就是模型不够好,在当前的模型没有很长的记忆,理解不了特别复杂的指令就会这样。这也是我们为什么坚持技术创新,让我们的模型的理解能力变得更强,能够处理无限长的输入跟输出,里面有更多的模态,这里面也包括更多的创作者的激励。

这件事需要一步一步演化,不是一蹴而就。我们看一下10年前的B站跟现在的B站显然不太一样。

问:最近朱啸虎有一个观点,大模型六小龙最佳的归宿可能是被大厂并购。

闫俊杰:这个事可以当成是对一个行业的考验,如果能够通过就能够出来,如果通不过确实应该关掉,这个事就应该客观地面对,这肯定不能怪用户,也不能怪生态,只能怪自己做得不够好,至少我们目前是在努力的,这是我唯一可以做的一件事。

问:您怎么理解现在行业技术进步的速度,我们可以从什么角度去衡量?

闫俊杰:我自己还是很坚定的,实际上两个月前我就知道今天可以更新视频模型,实验结果已经能够预测了。

对语言模型也是一样的,一个核心的标志可能不是说GPT4,或者是GPT-4o,或者GPT-4o mini这种东西。真正的变革是什么时间点有一个模型可以把错误率降低到个位数,这会是一个非常本质的变化。

我的判断是,如果Scaling law是对的话,(更好的)模型一定会出现,标志就是错误率走向个位数,就只是不知道什么原因还没有人把它真正地发布出来。

问:现在商业化整体的表现如何?

闫俊杰:我们不是上市公司,没法披露我们具体的经营数据。

可以谈谈变化,我们非常惊人地发现在有了大模型价格战之后,有很多非常传统的企业开始非常愿意使用大模型。国内大模型的使用量确实在显著地增长,并且中国的模型在海外确实越来越具有竞争力,我觉得是两个积极的变化。

关于《态度AGI》

本站科技重磅推出系列对话栏目《态度AGI》。过去三年,AI变革风起云涌,全球科技秩序正在重构,通往AGI的道路或许正在悄然临近。本栏目以AGI为题,将对话100位AI专家、企业家、投资人,试图拨开云雾,与大家一道见证AGI时代的到来。第十四期对话MiniMax创始人闫俊杰。

往期回顾:

《态度AGI》第一期:对话李开复:大模型创业狂奔一年 中美差距缩小 我十年不套现

《态度AGI》第二期:对话王小川:我们不跟进大模型价格战

《态度AGI》第三期:对话戴文渊:大模型价格战不解决核心问题

《态度AGI》第四期:智源研究院院长王仲远:GPT4不是国内大模型的尽头

《态度AGI》第五期:对话朱啸虎:5年后将没有独立的大模型公司存在,因为没有商业模式

《态度AGI》第六期:对话梅花创投吴世春:“中国大模型五虎”想要跑出来非常难

《态度AGI》第七期:对话跃然创新CEO李勇:做大模型应用 如何和巨头错位竞争

《态度AGI》第八期:对话智谱AI CEO张鹏:视频生成是AGI必经之路,超级App将在“不知不觉”中到来

《态度AGI》第九期:对话科大讯飞副总裁、研究院院长刘聪:中国大模型已从追赶对标走向自主原创

《态度AGI》第十期:对话360周鸿祎:魔法对付魔法,大模型安全问题得靠大模型

《态度AGI》第十一期:对话彩云科技CEO袁行远:超越ChatGPT,需要打开“黑盒”

《态度AGI》第十二期:对话傅盛:不看好双足机器人商业化,三五年都没戏

《态度AGI》第十三期:对话宇树创始人兼CEO王兴兴:通用机器人的iPhone时刻还需要3-4年